このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20240416となっている論文です。

PDF登録状況(公開日: 20240416)

TitleAuthorsAbstract論文公表日・翻訳日
# 新規脳小分子設計のための多目的生成AI

Multi-objective generative AI for designing novel brain-targeting small molecules ( http://arxiv.org/abs/2407.00004v1 )

ライセンス: Link先を確認
Ayush Noori, Iñaki Arango, William E. Byrd, Nada Amin, (参考訳) 血液脳関門(BBB)の厳格な選択性は、中枢神経系(CNS)を成功させる上で最も困難な課題の1つである。 BBB透過性薬物をシリコで生成する計算手法は、CNSの医薬品設計パイプラインにおいて貴重なツールである可能性がある。 しかし、現実の応用では、BBBの浸透だけでは不十分であり、BBBを通過させた後、分子は脳内の特定の標的または受容体に結合し、また安全で非毒性でなければならない。 これらの制約を同時に満たす小さな分子を発見するために、多目的生成AIを用いて、薬物のようなBBB透過性の小さな分子を合成する。 具体的には,多くの臨床効果のある抗精神病薬の主要な標的であるドパミン受容体D2に対する結合親和性を予測した分子を計算的に合成する。 近年開発されたモンテカルロ木探索を用いた抗生物質設計アルゴリズムであるSyntheMol (Swanson et al , 2024) を応用し, 容易に合成可能な分子空間上で多目的誘導トラバーサルを行う。 26,581個の新規かつ多様な小分子からなるライブラリーを設計し、高い予測されたBBB透過性と良好な予測された安全性と毒性プロファイルを持ち、湿式実験室で実験的な検証のために容易に合成できることを示した。 また,D2受容体に対する分子ドッキングシミュレーションによるトップスコアリング分子の評価を行い,臨床的に規定されたD2標的抗精神病薬であるリスペリドンと同等の結合親和性を示した。 将来的には、SyntheMolベースの計算手法により、CNSの現在難治性障害に対する新しい神経療法の発見が可能となる可能性がある。

The strict selectivity of the blood-brain barrier (BBB) represents one of the most formidable challenges to successful central nervous system (CNS) drug delivery. Computational methods to generate BBB permeable drugs in silico may be valuable tools in the CNS drug design pipeline. However, in real-world applications, BBB penetration alone is insufficient; rather, after transiting the BBB, molecules must bind to a specific target or receptor in the brain and must also be safe and non-toxic. To discover small molecules that concurrently satisfy these constraints, we use multi-objective generative AI to synthesize drug-like BBB-permeable small molecules. Specifically, we computationally synthesize molecules with predicted binding affinity against dopamine receptor D2, the primary target for many clinically effective antipsychotic drugs. After training several graph neural network-based property predictors, we adapt SyntheMol (Swanson et al., 2024), a recently developed Monte Carlo Tree Search-based algorithm for antibiotic design, to perform a multi-objective guided traversal over an easily synthesizable molecular space. We design a library of 26,581 novel and diverse small molecules containing hits with high predicted BBB permeability and favorable predicted safety and toxicity profiles, and that could readily be synthesized for experimental validation in the wet lab. We also validate top scoring molecules with molecular docking simulation against the D2 receptor and demonstrate predicted binding affinity on par with risperidone, a clinically prescribed D2-targeting antipsychotic. In the future, the SyntheMol-based computational approach described here may enable the discovery of novel neurotherapeutics for currently intractable disorders of the CNS.
翻訳日:2024-07-22 22:48:25 公開日:2024-04-16
# 抑うつ識別のためのソーシャルメディア投稿の探索:Redditデータセットの検討

Exploring Social Media Posts for Depression Identification: A Study on Reddit Dataset ( http://arxiv.org/abs/2405.06656v1 )

ライセンス: Link先を確認
Nandigramam Sai Harshit, Nilesh Kumar Sahu, Haroon R. Lone, (参考訳) うつ病は個人の個人的および専門的な生活に影響を与える最も一般的な精神疾患の1つである。 本研究では,個人のうつ病を識別するためのソーシャルメディア投稿の活用の可能性について検討した。 この目標を達成するために,2022年のトップReddit投稿を,うつ病関連フォーラムから抽出し,分析した。 収集したデータはUMLS Metathesaurusを用いて抑うつ的で非抑うつ的とラベル付けされた。 さらに、前処理したデータを古典的な機械学習モデルに供給し、抑うつ的および非抑うつ的ポストを予測する精度92.28\%を達成した。

Depression is one of the most common mental disorders affecting an individual's personal and professional life. In this work, we investigated the possibility of utilizing social media posts to identify depression in individuals. To achieve this goal, we conducted a preliminary study where we extracted and analyzed the top Reddit posts made in 2022 from depression-related forums. The collected data were labeled as depressive and non-depressive using UMLS Metathesaurus. Further, the pre-processed data were fed to classical machine learning models, where we achieved an accuracy of 92.28\% in predicting the depressive and non-depressive posts.
翻訳日:2024-07-01 08:49:26 公開日:2024-04-16
# ナイジェリアの地域環境レベルでのeサービス導入と実施に直面する障壁

Barriers facing e-service adopting and implementation at local environment level in Nigeria ( http://arxiv.org/abs/2406.15375v1 )

ライセンス: Link先を確認
Kazeem Oluwakemi Oseni, (参考訳) E-Government サービスは、政府の活動や市民支援を改善する大きな可能性を秘めている。 しかし、特に発展途上国において、地方自治体レベルでのE-Governmentサービスに関する研究が不足している。 しかし、世界のほとんどの発展途上国の不安定で脆弱な経済を考えると、この領域で成功しているE-Service技術は、その障壁なしでは実現しない。 研究の目的は、ナイジェリアを事例として、地域環境レベルでE-Serviceの採用と実装が直面する障壁を特定することである。 この論文は解釈パラダイムを採用し、アクションリサーチを使用する。 ナイジェリアにおける大規模な現地調査 (Interviews)、政府職員のオンライン調査、オンラインフォーカスグループ、政府文書の分析、E-Serviceイニシアチブなどで構成されている。 構造化された文献審査法は3,245枚の論文を精査した。 この論文で使用される主要な理論ツールは、革新(DOI)理論の拡散と変化の理論である。

E-Government services offer a great deal of potential to improve government activities and citizen support. However, there is a lack of research covering E-Government services at the local government level, particularly in developing countries. However, implementing successful E-Service technology in this part of the world will not come without its barriers considering the unstable and fragile economies in most developing countries. The research aim is to identify the barriers facing E-Service adoption and implementation at a local environment level, using Nigeria as a case example. This thesis adopts an interpretive paradigm and uses action research. It consists of a large field study in Nigeria (interviews), an online survey of government officials, online focus groups, and analyses government documents and E-Service initiatives. A structured literature review method consisted of sifting through 3,245 papers. The main theoretical tools used in this thesis are the diffusion of innovation (DOI) theory and the theory of change.
翻訳日:2024-07-01 07:11:08 公開日:2024-04-16
# 倫理的問題解決によるAI倫理の原則-実践的ギャップの克服

Crossing the principle-practice gap in AI ethics with ethical problem-solving ( http://arxiv.org/abs/2406.15376v1 )

ライセンス: Link先を確認
Nicholas Kluge Corrêa, James William Santos, Camila Galvão, Marcelo Pasetti, Dieine Schiavon, Faizah Naqvi, Robayet Hossain, Nythamar De Oliveira, (参考訳) 過去数年間、ディープラーニングのブレークスルー、計算能力の向上、この分野への相当な投資によって、AI開発が急増した。 より最近のAIシステムの生成能力を考えると、大規模なAIモデルの時代は、日々の生活と交わるさまざまな領域を変えてきた。 しかし、この進歩は、技術進歩、倫理的考察、安全対策、金融利害のバランスに関する懸念を提起する。 さらに、センシティブな分野におけるこのようなシステムの利用は、私たちの一般的な倫理的意識を増幅し、ガバナンス、規制、人的価値に関する議論が再燃させる。 しかし、この状況の中で、倫理的言説をAI開発の技術面から切り離す原則-実践的ギャップをいかに埋めるかは、未解決の問題のままである。 この課題に対応するために、本研究では、このギャップを短くする枠組みである倫理的問題解決(EPS)を提案する。 EPSは、責任、人間中心、価値指向のAI開発を促進する方法論である。 フレームワークの中核は、インパクトアセスメント調査と差分レコメンデーション手法を使用して、原則を実践的な実装に翻訳することにある。 EPSを青写真として利用して、Ethics as a Service Platformの実装を提案しています。 すべてのフレームワークコンポーネントをオープンかつパーミッシブなライセンスでリリースしました。 https://github.com/Nkluge\-correa/ethical\-problem\-solvingで利用可能である。

The past years have presented a surge in (AI) development, fueled by breakthroughs in deep learning, increased computational power, and substantial investments in the field. Given the generative capabilities of more recent AI systems, the era of large-scale AI models has transformed various domains that intersect our daily lives. However, this progress raises concerns about the balance between technological advancement, ethical considerations, safety measures, and financial interests. Moreover, using such systems in sensitive areas amplifies our general ethical awareness, prompting a reemergence of debates on governance, regulation, and human values. However, amidst this landscape, how to bridge the principle-practice gap separating ethical discourse from the technical side of AI development remains an open problem. In response to this challenge, the present work proposes a framework to help shorten this gap: ethical problem-solving (EPS). EPS is a methodology promoting responsible, human-centric, and value-oriented AI development. The framework's core resides in translating principles into practical implementations using impact assessment surveys and a differential recommendation methodology. We utilize EPS as a blueprint to propose the implementation of Ethics as a Service Platform, which is currently available as a simple demonstration. We released all framework components openly and with a permissive license, hoping the community would adopt and extend our efforts into other contexts. Available in https://github.com/Nkluge\-correa/ethical\-problem\-solving
翻訳日:2024-07-01 07:11:08 公開日:2024-04-16
# Conformal Semantic Image Segmentation: Post-hoc Quantification of Predictive Uncertainity

Conformal Semantic Image Segmentation: Post-hoc Quantification of Predictive Uncertainty ( http://arxiv.org/abs/2405.05145v1 )

ライセンス: Link先を確認
Luca Mossina, Joseba Dalmau, Léo andéol, (参考訳) 本稿では,セマンティックイメージセグメンテーションにおける予測不確実性を定量化する,ポストホックな計算軽量な手法を提案する。 提案手法は共形予測を用いて統計的に有効な予測セットを生成する。 本研究では,熱マップに基づく共形予測の新しい可視化手法を導入し,その実証的妥当性を評価するための指標を提供する。 提案手法の有効性を、よく知られたベンチマークデータセットと画像分割予測モデルで実証し、実践的な洞察で結論付ける。

We propose a post-hoc, computationally lightweight method to quantify predictive uncertainty in semantic image segmentation. Our approach uses conformal prediction to generate statistically valid prediction sets that are guaranteed to include the ground-truth segmentation mask at a predefined confidence level. We introduce a novel visualization technique of conformalized predictions based on heatmaps, and provide metrics to assess their empirical validity. We demonstrate the effectiveness of our approach on well-known benchmark datasets and image segmentation prediction models, and conclude with practical insights.
翻訳日:2024-05-12 15:40:48 公開日:2024-04-16
# 大規模MIMOシステムにおけるIoTのスマートパイロットアサインメント - スケーラブルなIoTインフラストラクチャへの道

Smart Pilot Assignment for IoT in Massive MIMO Systems: A Path Towards Scalable IoT Infrastructure ( http://arxiv.org/abs/2404.10188v1 )

ライセンス: Link先を確認
Muhammad Kamran Saeed, Ashfaq Khokhar, (参考訳) 5Gは、より高速なスピード、データスループットの向上、レイテンシの低減、IoT接続の強化などにより、クリエイティビティの時代の基礎を築き、これらはすべてM-MIMO(Massive MIMO)技術によって実現されている。 M-MIMOは、インテリジェントなユーザスケジューリングを利用することで、ネットワーク効率を高め、ユーザエクスペリエンスを向上させる。 本稿では、M-MIMOネットワークにおけるスペクトル効率(SE)向上とシステムのスケーラビリティ向上のための重要な障害であるパイロット汚染の緩和を強調し、IoTデバイス用に設計されたユーザスケジューリングとパイロット割り当て戦略を提案する。 M-MIMOシステムにおけるIoTデバイスのスケーラビリティ向上のために,ユーザクラスタリングに基づくパイロットアロケーション方式を利用する。 さらに、我々のスマートパイロット割当は干渉を最小限に抑え、パイロット割当をグラフカラー化問題として扱い、整数線形プログラミング(ILP)により最適化することでSEを強化する。 ILPの計算複雑性を認識しながら、干渉閾値に基づく二進探索に基づくヒューリスティックを導入し、計算を高速化し、最適に近い解を維持した。 シミュレーションの結果、必要なパイロットのオーバーヘッド(約17%)が大幅に減少し、SE(約8-14%)が大幅に向上した。

5G sets the foundation for an era of creativity with its faster speeds, increased data throughput, reduced latency, and enhanced IoT connectivity, all enabled by Massive MIMO (M-MIMO) technology. M-MIMO boosts network efficiency and enhances user experience by employing intelligent user scheduling. This paper presents a user scheduling scheme and pilot assignment strategy designed for IoT devices, emphasizing mitigating pilot contamination, a key obstacle to improving spectral efficiency (SE) and system scalability in M-MIMO networks. We utilize a user clustering-based pilot allocation scheme to boost IoT device scalability in M-MIMO systems. Additionally, our smart pilot allocation minimizes interference and enhances SE by treating pilot assignment as a graph coloring problem, optimizing it through integer linear programming (ILP). Recognizing the computational complexity of ILP, we introduced a binary search-based heuristic predicated on interference threshold to expedite the computation, while maintaining a near-optimal solution. The simulation results show a significant decrease in the required pilot overhead (about 17%), and substantial enhancement in SE (about 8-14%).
翻訳日:2024-05-05 18:14:01 公開日:2024-04-16
# ニューロンに対する酸素空孔変調VO2とスパイキングニューラルネットワークの構築

Oxygen vacancies modulated VO2 for neurons and Spiking Neural Network construction ( http://arxiv.org/abs/2405.00700v1 )

ライセンス: Link先を確認
Liang Li, Ting Zhou, Tong Liu, Zhiwei Liu, Yaping Li, Shuo Wu, Shanguang Zhao, Jinglin Zhu, Meiling Liu, Zhihan Lin, Bowen Sun, Jianjun Li, Fangwen Sun, Chongwen Zou, (参考訳) 人工ニューロンデバイスは、現実的な脳エミュレーションによって動機付けられた神経形コンピューティングシステムの基本的な構成要素である。 これらの応用を目指して、ニューロンのダイナミクスや機能を模倣する様々なデバイス概念が提案されている。 これまでのところ、高効率、高安定性、低消費電力の人工ニューロンデバイスは実用には程遠い。 特別な絶縁体-金属相転移のため、二酸化バナジウム(VO2)は神経デバイス製造の候補と考えられている。 しかし、その固有の絶縁状態は、VO2ニューロンデバイスを大きなバイアス電圧で駆動することを必要とし、高い消費電力と低い周波数をもたらす。 そこで本研究では,酸素空孔変調VO2膜(VO2-x)を作製し,スパイキングニューラルネットワーク(SNN)構築のためのVO2-xニューロンデバイスを作製することによって,この問題に対処した。 その結果, ニューロンデバイスは低電圧で動作可能であり, 処理速度は向上した。 MNISTデータセットでトレーニングしたVO2-xベースのバックプロパゲーションSNN(BP-SNNs)システムは、画像認識において優れた精度を示す。 本研究は, VO2-x系ニューロンとSNNシステムを実用化するだけでなく, 欠陥工学的戦略により, 将来の神経形コンピューティングシステムを最適化する効果的な方法も提供する。

Artificial neuronal devices are the basic building blocks for neuromorphic computing systems, which have been motivated by realistic brain emulation. Aiming for these applications, various device concepts have been proposed to mimic the neuronal dynamics and functions. While till now, the artificial neuron devices with high efficiency, high stability and low power consumption are still far from practical application. Due to the special insulator-metal phase transition, Vanadium Dioxide (VO2) has been considered as an idea candidate for neuronal device fabrication. However, its intrinsic insulating state requires the VO2 neuronal device to be driven under large bias voltage, resulting in high power consumption and low frequency. Thus in the current study, we have addressed this challenge by preparing oxygen vacancies modulated VO2 film(VO2-x) and fabricating the VO2-x neuronal devices for Spiking Neural Networks (SNNs) construction. Results indicate the neuron devices can be operated under lower voltage with improved processing speed. The proposed VO2-x based back-propagation SNNs (BP-SNNs) system, trained with the MNIST dataset, demonstrates excellent accuracy in image recognition. Our study not only demonstrates the VO2-x based neurons and SNN system for practical application, but also offers an effective way to optimize the future neuromorphic computing systems by defect engineering strategy.
翻訳日:2024-05-05 17:54:32 公開日:2024-04-16
# セマンティック検索とファインチューニングによる大規模言語モデルに基づくマーケティング分析の能力向上

Improving the Capabilities of Large Language Model Based Marketing Analytics Copilots With Semantic Search And Fine-Tuning ( http://arxiv.org/abs/2404.13077v1 )

ライセンス: Link先を確認
Yilin Gao, Sai Kumar Arava, Yancheng Li, James W. Snyder Jr, (参考訳) 人工知能(AI)は、マーケティングの帰属や予算最適化に関連する問題を解決するために広く利用されている。 しかし、AIモデルは極めて複雑であり、広範な実装チームなしでモデル作業や洞察を理解することは困難である。 原則として、GPT-4のような最近開発された大規模言語モデル(LLM)は、マーケティングの洞察を提供するためにデプロイでき、重要な決定を行うのに必要な時間と労力を減らすことができる。 実際には、そのようなモデルを確実に使用するために克服する必要がある、重大な課題があります。 データ検索に必要なドメイン固有の問合せ、SQL生成、表解析に焦点をあて、セマンティック検索、プロンプトエンジニアリング、微調整の組み合わせが、これらのタスクを正確に実行するためのLLMの能力を劇的に改善するためにどのように適用できるかを示す。 GPT-4のようなプロプライエタリなモデルと、Llama-2-70bのようなオープンソースのモデル、および様々な埋め込み方法を比較します。 これらのモデルは、マーケティングミックスモデリングと属性に特化したサンプルユースケースでテストされる。

Artificial intelligence (AI) is widely deployed to solve problems related to marketing attribution and budget optimization. However, AI models can be quite complex, and it can be difficult to understand model workings and insights without extensive implementation teams. In principle, recently developed large language models (LLMs), like GPT-4, can be deployed to provide marketing insights, reducing the time and effort required to make critical decisions. In practice, there are substantial challenges that need to be overcome to reliably use such models. We focus on domain-specific question-answering, SQL generation needed for data retrieval, and tabular analysis and show how a combination of semantic search, prompt engineering, and fine-tuning can be applied to dramatically improve the ability of LLMs to execute these tasks accurately. We compare both proprietary models, like GPT-4, and open-source models, like Llama-2-70b, as well as various embedding methods. These models are tested on sample use cases specific to marketing mix modeling and attribution.
翻訳日:2024-04-23 20:37:54 公開日:2024-04-16
# BERTモデルを用いた学際研究の強化:トピックモデリングを用いたSciBERT-CNNによるアプローチ

Empowering Interdisciplinary Research with BERT-Based Models: An Approach Through SciBERT-CNN with Topic Modeling ( http://arxiv.org/abs/2404.13078v1 )

ライセンス: Link先を確認
Darya Likhareva, Hamsini Sankaran, Sivakumar Thiyagarajan, (参考訳) 研究者は学術文献を定期的にレビューすることで、現在の分野に留まらなければならない。 従来のマルチラベルテキスト分類法は意味的関係を無視し、固有のクラス不均衡に対処しないことが多い。 本稿では,SciBERTモデルとCNNを用いて,Elsevier OA CC-BYコーパスから学術的抽象物を体系的に分類する手法を提案する。 我々は、SciBERTを介してBERTトピックモデリングによって得られた抽象、体文、タイトル、キーワードを処理するマルチセグメント入力戦略を使用する。 ここでは、[CLS]トークンの埋め込みが各セグメントのコンテキスト表現をキャプチャし、CNNを通じて連結して処理する。 CNNは、畳み込みとプーリングを使用して、特徴抽出を強化し、次元性を低減し、分類のためのデータを最適化する。 さらに、ラベル周波数に基づくクラス重みを組み、クラス不均衡に対処し、分類F1のスコアを大幅に改善し、テキスト分類システムと文献レビュー効率を向上する。

Researchers must stay current in their fields by regularly reviewing academic literature, a task complicated by the daily publication of thousands of papers. Traditional multi-label text classification methods often ignore semantic relationships and fail to address the inherent class imbalances. This paper introduces a novel approach using the SciBERT model and CNNs to systematically categorize academic abstracts from the Elsevier OA CC-BY corpus. We use a multi-segment input strategy that processes abstracts, body text, titles, and keywords obtained via BERT topic modeling through SciBERT. Here, the [CLS] token embeddings capture the contextual representation of each segment, concatenated and processed through a CNN. The CNN uses convolution and pooling to enhance feature extraction and reduce dimensionality, optimizing the data for classification. Additionally, we incorporate class weights based on label frequency to address the class imbalance, significantly improving the classification F1 score and enhancing text classification systems and literature review efficiency.
翻訳日:2024-04-23 20:37:54 公開日:2024-04-16
# 知覚分析のための関係グラフ畳み込みネットワーク

Relational Graph Convolutional Networks for Sentiment Analysis ( http://arxiv.org/abs/2404.13079v1 )

ライセンス: Link先を確認
Asal Khosravi, Zahed Rahmati, Ali Vefghi, (参考訳) オンラインプラットフォーム全体のテキストデータの増加に伴い、ユーザ生成コンテンツから洞察を抽出する上で、感情分析が重要になっている。 従来のアプローチやディープラーニングモデルは将来性を示しているが、エンティティ間の複雑な関係を捉えることはできない。 本稿では、関係グラフ畳み込みネットワーク(RGCN)を感情分析に活用し、グラフ内のノードに表されるデータポイント間の依存関係をキャプチャすることで、解釈性と柔軟性を提供する。 本稿では,Amazon および Digikala データセットの製品レビューにおいて,BERT や RoBERTa などの事前学習言語モデルと RGCN アーキテクチャを用いたアプローチの有効性を示し,その結果を評価した。 本実験は,感情分析作業における関係情報収集におけるRCCNの有効性を明らかにするものである。

With the growth of textual data across online platforms, sentiment analysis has become crucial for extracting insights from user-generated content. While traditional approaches and deep learning models have shown promise, they cannot often capture complex relationships between entities. In this paper, we propose leveraging Relational Graph Convolutional Networks (RGCNs) for sentiment analysis, which offer interpretability and flexibility by capturing dependencies between data points represented as nodes in a graph. We demonstrate the effectiveness of our approach by using pre-trained language models such as BERT and RoBERTa with RGCN architecture on product reviews from Amazon and Digikala datasets and evaluating the results. Our experiments highlight the effectiveness of RGCNs in capturing relational information for sentiment analysis tasks.
翻訳日:2024-04-23 20:28:09 公開日:2024-04-16
# TV100:事前訓練されたCLIPが持っていないTVシリーズのデータセット

TV100: A TV Series Dataset that Pre-Trained CLIP Has Not Seen ( http://arxiv.org/abs/2404.12407v1 )

ライセンス: Link先を確認
Da-Wei Zhou, Zhi-Hong Qi, Han-Jia Ye, De-Chuan Zhan, (参考訳) 事前訓練されたモデルの時代は、機械学習コミュニティに多くの新しい洞察をもたらした。 様々な疑問が浮かび上がっており、「事前訓練されたモデルは包括的知識を持っているか」が最重要視されている。 この論文は、この決定的な調査に対処しようとしている。 目的に応じて,2021年以降に公開されたテレビシリーズの画像からなる新しいデータセットを公開している。 このデータセットは、インクリメンタルラーニング、新しいクラス発見、長期学習など、様々な研究領域での利用に有意な可能性を秘めている。 プロジェクトページ: https://tv-100.github.io/

The era of pre-trained models has ushered in a wealth of new insights for the machine learning community. Among the myriad of questions that arise, one of paramount importance is: 'Do pre-trained models possess comprehensive knowledge?' This paper seeks to address this crucial inquiry. In line with our objective, we have made publicly available a novel dataset comprised of images from TV series released post-2021. This dataset holds significant potential for use in various research areas, including the evaluation of incremental learning, novel class discovery, and long-tailed learning, among others. Project page: https://tv-100.github.io/
翻訳日:2024-04-22 17:13:50 公開日:2024-04-16
# 心的時系列における変化点検出アルゴリズムのベンチマーク

Benchmarking changepoint detection algorithms on cardiac time series ( http://arxiv.org/abs/2404.12408v1 )

ライセンス: Link先を確認
Ayse Cakmak, Erik Reinertsen, Shamim Nemati, Gari D. Clifford, (参考訳) バイオメディカル時系列における状態変化のパターンは、健康や病気と関連している可能性がある。 本研究は、疾患分類などの特定のタスクに対して、変更点検出アルゴリズムを選択するための原則的なアプローチを提案する。 8つのアルゴリズムを比較し,実際の人工心血管時系列データに対する時間的寛容,雑音,異常伝導(オブポピー)の関数として各アルゴリズムの性能を評価した。 人工データから選択したパラメータを用いて,REM行動障害(RBD)患者22名と健常者15名の実データ(心的時系列)に全アルゴリズムを適用した。 K-Nearest Neighbors法を用いた健康管理からRBD患者を分類するために検出された変化点から特徴を導出した。 人工データでは,修正ベイズ変化点検出アルゴリズムにより状態変化の同定に優れた正の予測値が得られたが,再帰平均差最大化(RMDM)は正の正の値を得た。 分類タスクでは,RMDMアルゴリズムから得られた特徴は,0.89の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の正の 自動的に検出された変化点は、直接観察できない被験者の生理状態に関する有用な情報を提供する。 しかし、変化点検出アルゴリズムの選択は、基礎となるデータの性質と分類タスクのような下流アプリケーションに依存する。 この研究は、変更点検出アルゴリズムを意味のある方法で比較し、分類タスクで利用した初めてのものであり、変更点アルゴリズムの選択がアプリケーションパフォーマンスに与える影響を実証している。

The pattern of state changes in a biomedical time series can be related to health or disease. This work presents a principled approach for selecting a changepoint detection algorithm for a specific task, such as disease classification. Eight key algorithms were compared, and the performance of each algorithm was evaluated as a function of temporal tolerance, noise, and abnormal conduction (ectopy) on realistic artificial cardiovascular time series data. All algorithms were applied to real data (cardiac time series of 22 patients with REM-behavior disorder (RBD) and 15 healthy controls) using the parameters selected on artificial data. Finally, features were derived from the detected changepoints to classify RBD patients from healthy controls using a K-Nearest Neighbors approach. On artificial data, Modified Bayesian Changepoint Detection algorithm provided superior positive predictive value for state change identification while Recursive Mean Difference Maximization (RMDM) achieved the highest true positive rate. For the classification task, features derived from the RMDM algorithm provided the highest leave one out cross validated accuracy of 0.89 and true positive rate of 0.87. Automatically detected changepoints provide useful information about subject's physiological state which cannot be directly observed. However, the choice of change point detection algorithm depends on the nature of the underlying data and the downstream application, such as a classification task. This work represents the first time change point detection algorithms have been compared in a meaningful way and utilized in a classification task, which demonstrates the effect of changepoint algorithm choice on application performance.
翻訳日:2024-04-22 17:13:50 公開日:2024-04-16
# 休日における機能的ヒト脳ネットワークの持続的状態空間推定

Persistent Homological State-Space Estimation of Functional Human Brain Networks at Rest ( http://arxiv.org/abs/2201.00087v6 )

ライセンス: Link先を確認
Moo K. Chung, Shih-Gu Huang, Ian C. Carroll, Vince D. Calhoun, H. Hill Goldsmith, (参考訳) 本稿では,機能的脳ネットワークを静止状態に動的に変化させる状態空間を推定するための,革新的なデータ駆動型トポロジカルデータ解析(TDA)手法を提案する。 本稿では,ワッサースタイン距離を用いてトポロジカルな差を計測し,脳ネットワークを異なるトポロジカルな状態にまとめる手法を提案する。 この手法は、明示的なモデル仕様を必要とせずに、データの時間的ダイナミクスを効果的に組み込むことで、脳ネットワーク状態空間の特定においてよく使われるk平均クラスタリングより優れている。 さらに、これらのトポロジカルな特徴の遺伝的基盤をツインスタディデザインを用いて検討し、そのような状態変化の遺伝性について検討した。 以上の結果から,脳ネットワークのトポロジ,特にその動的状態変化は,重要な隠れた遺伝情報を保持できる可能性が示唆された。 メソッドのMATLABコードはhttps://github.com/laplcebeltrami/PH-STATで公開されている。

We introduce an innovative, data-driven topological data analysis (TDA) technique for estimating the state spaces of dynamically changing functional human brain networks at rest. Our method utilizes the Wasserstein distance to measure topological differences, enabling the clustering of brain networks into distinct topological states. This technique outperforms the commonly used k-means clustering in identifying brain network state spaces by effectively incorporating the temporal dynamics of the data without the need for explicit model specification. We further investigate the genetic underpinnings of these topological features using a twin study design, examining the heritability of such state changes. Our findings suggest that the topology of brain networks, particularly in their dynamic state changes, may hold significant hidden genetic information. MATLAB code for the method is available at https://github.com/laplcebeltrami/PH-STAT.
翻訳日:2024-04-19 00:31:27 公開日:2024-04-16
# カオスアトラクションの不変性維持のためのニューラルオペレーターの訓練

Training neural operators to preserve invariant measures of chaotic attractors ( http://arxiv.org/abs/2306.01187v3 )

ライセンス: Link先を確認
Ruoxi Jiang, Peter Y. Lu, Elena Orlova, Rebecca Willett, (参考訳) カオスシステムは、初期状態の小さな摂動がトラジェクトリを指数的な速度で発散させるため、長期の水平予測を難しくする。 この設定では、ニューラルネットワークオペレータは2乗誤差損失を最小限に抑えながら、正確な短期予測が可能でありながら、長い時間的地平線上での力学の統計的または構造的特性の再現に失敗し、縮退する結果をもたらすことができる。 本稿では,力学の時間不変な統計特性を特徴付けるカオス的誘引器の不変測度を保存するための代替フレームワークを提案する。 具体的には、多環境環境(各サンプル軌道はわずかに異なるダイナミクスによって制御されている)において、ノイズの多いデータを用いたトレーニングのための2つの新しいアプローチを検討する。 まず、観測されたダイナミクスとニューラル演算子の出力との最適輸送距離に基づく損失を提案する。 このアプローチは、最適な輸送損失にどの統計的特徴を含めるべきかを決定するために、基礎となる物理学の専門知識を必要とする。 第二に、特定の事前知識を必要としないコントラスト学習フレームワークは、最適輸送手法と同様に、力学の統計的特性をほぼ保存できることを示す。 種々のカオスシステムにおいて, カオストラクタの不変測度を保存するために, 実験により提案手法を実証的に示す。

Chaotic systems make long-horizon forecasts difficult because small perturbations in initial conditions cause trajectories to diverge at an exponential rate. In this setting, neural operators trained to minimize squared error losses, while capable of accurate short-term forecasts, often fail to reproduce statistical or structural properties of the dynamics over longer time horizons and can yield degenerate results. In this paper, we propose an alternative framework designed to preserve invariant measures of chaotic attractors that characterize the time-invariant statistical properties of the dynamics. Specifically, in the multi-environment setting (where each sample trajectory is governed by slightly different dynamics), we consider two novel approaches to training with noisy data. First, we propose a loss based on the optimal transport distance between the observed dynamics and the neural operator outputs. This approach requires expert knowledge of the underlying physics to determine what statistical features should be included in the optimal transport loss. Second, we show that a contrastive learning framework, which does not require any specialized prior knowledge, can preserve statistical properties of the dynamics nearly as well as the optimal transport approach. On a variety of chaotic systems, our method is shown empirically to preserve invariant measures of chaotic attractors.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-16
# MUBen:分子表現モデルの不確かさのベンチマーク

MUBen: Benchmarking the Uncertainty of Molecular Representation Models ( http://arxiv.org/abs/2306.10060v4 )

ライセンス: Link先を確認
Yinghao Li, Lingkai Kong, Yuanqi Du, Yue Yu, Yuchen Zhuang, Wenhao Mu, Chao Zhang, (参考訳) 大量のラベルのないデータに基づいて事前訓練された大規模な分子表現モデルは、分子特性を予測することに成功している。 しかし、これらのモデルは微調整されたデータに過度に適合する傾向があり、結果としてトレーニング分布の外にあるテストデータに対する過信的な予測が生じる。 この問題を解決するために、モデルのキャリブレーションを改善するために不確実量化法(UQ)を用いることができる。 多くのUQアプローチが存在するが、それらすべてが性能改善につながるわけではない。 分子前訓練モデルを改善するためのUQを含む研究もあるが、適切なバックボーンの選択方法と信頼性の高い分子不確実性推定のためのUQ法は未検討のままである。 このギャップに対処するために,最先端のバックボーン分子表現モデルに対する異なるUQ手法の評価を行い,それらの機能について検討するMUBenを提案する。 異なる分子記述子を異なるカテゴリのUQ手法で入力として様々なバックボーンを微調整することにより、アーキテクチャ決定やトレーニング戦略の影響を評価する。 本研究は、材料科学や薬物発見などの分野における不確実性クリティカルな応用の研究を促進するために、バックボーンモデルのUQを選択するための洞察を提供する。

Large molecular representation models pre-trained on massive unlabeled data have shown great success in predicting molecular properties. However, these models may tend to overfit the fine-tuning data, resulting in over-confident predictions on test data that fall outside of the training distribution. To address this issue, uncertainty quantification (UQ) methods can be used to improve the models' calibration of predictions. Although many UQ approaches exist, not all of them lead to improved performance. While some studies have included UQ to improve molecular pre-trained models, the process of selecting suitable backbone and UQ methods for reliable molecular uncertainty estimation remains underexplored. To address this gap, we present MUBen, which evaluates different UQ methods for state-of-the-art backbone molecular representation models to investigate their capabilities. By fine-tuning various backbones using different molecular descriptors as inputs with UQ methods from different categories, we assess the influence of architectural decisions and training strategies. Our study offers insights for selecting UQ for backbone models, which can facilitate research on uncertainty-critical applications in fields such as materials science and drug discovery.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-16
# 高次元RBMのドリフト制御:ニューラルネットワークに基づく計算法

Drift Control of High-Dimensional RBM: A Computational Method Based on Neural Networks ( http://arxiv.org/abs/2309.11651v3 )

ライセンス: Link先を確認
Baris Ata, J. Michael Harrison, Nian Si, (参考訳) 待ち行列理論の応用により、状態空間が$d$次元正のオーサントである確率的制御問題を考える。 制御過程の$Z$は、共分散行列が等質的に指定されたブラウン運動として進化し、オーサントの境界面からの反射の方向が変化する。 システムマネージャがドリフトベクトル $\theta(t)$ を各時点 $t$ の履歴に基づいて選択し、時間 $t$ のコストレートは $Z(t)$ と $\theta(t)$ の両方に依存する。 最初の問題定式化では、無限の計画地平線上で期待される割引コストを最小化し、その後、対応するエルゴード制御問題を扱う。 Han et al (2018, 8505-8510) による以前の研究を拡張して, ディープニューラルネットワーク技術に大きく依存するシミュレーションベースの計算手法を開発し, 解説する。 これまでに検討したテスト問題では,提案手法は1パーセント以内の精度で,少なくとも$d=30$の次元で計算可能であった。

Motivated by applications in queueing theory, we consider a stochastic control problem whose state space is the $d$-dimensional positive orthant. The controlled process $Z$ evolves as a reflected Brownian motion whose covariance matrix is exogenously specified, as are its directions of reflection from the orthant's boundary surfaces. A system manager chooses a drift vector $\theta(t)$ at each time $t$ based on the history of $Z$, and the cost rate at time $t$ depends on both $Z(t)$ and $\theta(t)$. In our initial problem formulation, the objective is to minimize expected discounted cost over an infinite planning horizon, after which we treat the corresponding ergodic control problem. Extending earlier work by Han et al. (Proceedings of the National Academy of Sciences, 2018, 8505-8510), we develop and illustrate a simulation-based computational method that relies heavily on deep neural network technology. For test problems studied thus far, our method is accurate to within a fraction of one percent, and is computationally feasible in dimensions up to at least $d=30$.
翻訳日:2024-04-19 00:26:13 公開日:2024-04-16
# サギタリウスA*超大質量ブラックホール近傍のフレアの軌道ポラリメトリックトモグラフィー

Orbital Polarimetric Tomography of a Flare Near the Sagittarius A* Supermassive Black Hole ( http://arxiv.org/abs/2310.07687v2 )

ライセンス: Link先を確認
Aviad Levis, Andrew A. Chael, Katherine L. Bouman, Maciek Wielgus, Pratul P. Srinivasan, (参考訳) 銀河系の中心にある超大質量ブラックホールであるサギタリウスA*と、その降着円盤との相互作用は、時折、X線、赤外線、ラジオで見られる高エネルギーフレアを生み出す。 フレアを発生させる1つのメカニズムは、降着円盤内に現れ、事象の地平線に近い、コンパクトで明るい領域の形成である。 これらのフレアを理解することは、付加プロセスへのウィンドウを提供する。 洗練されたシミュレーションではこれらのフレアの形成を予測しているが、その構造は観測によってまだ復元されていない。 ここでは、2017年4月11日に観測されたALMA光曲線から回収された発光フレアの3次元3次元復元について述べる。 我々の回復は、事象の地平線の約6倍の距離にあるコンパクトで明るい領域を示している。 さらに、低傾斜軌道面における時計回りの回転がGRAVITYとEHTによる以前の研究と一致することを示唆している。 この放出構造を回復するために,ニューラルネットワークによる3次元表現とブラックホールの重力モデルを統合することにより,不測のトモグラフィー問題を解く。 回復は物理的に動機づけられた選択の下でのモデル仮定に従属するが、我々の結果は安定しており、我々のアプローチはシミュレートされたデータで成功している。

The interaction between the supermassive black hole at the center of the Milky Way, Sagittarius A*, and its accretion disk occasionally produces high-energy flares seen in X-ray, infrared, and radio. One proposed mechanism that produces flares is the formation of compact, bright regions that appear within the accretion disk and close to the event horizon. Understanding these flares provides a window into accretion processes. Although sophisticated simulations predict the formation of these flares, their structure has yet to be recovered by observations. Here we show the first three-dimensional (3D) reconstruction of an emission flare recovered from ALMA light curves observed on April 11, 2017. Our recovery shows compact, bright regions at a distance of roughly six times the event horizon. Moreover, it suggests a clockwise rotation in a low-inclination orbital plane, consistent with prior studies by GRAVITY and EHT. To recover this emission structure, we solve an ill-posed tomography problem by integrating a neural 3D representation with a gravitational model for black holes. Although the recovery is subject to, and sometimes sensitive to, the model assumptions, under physically motivated choices, our results are stable, and our approach is successful on simulated data.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-16
# ダイヤモンド中の窒素空孔中心を用いた高磁場NMRのための栄養系縦型センシングプロトコル

Nutation-Based Longitudinal Sensing Protocols for High-Field NMR With Nitrogen-Vacancy Centers in Diamond ( http://arxiv.org/abs/2310.08499v2 )

ライセンス: Link先を確認
Declan Daly, Stephen J. DeVience, Emma Huckestein, John W. Blanchard, Johannes Cremer, Ronald L. Walsworth, (参考訳) ダイヤモンド中の窒素空孔(NV)中心は、ナノスケールとミクロンの試料の核磁気共鳴(NMR)分光を可能にする。 しかし、典型的なテトラスケールのNMR磁場強度では、数メガヘルツ以上の原子核ラーモア周波数に敏感な高速なNVパルスシーケンスを駆動するという課題のために、NV-NMRプロトコルの実装が困難になる。 我々は, DRACAERIS (Double Rewound Acquisition Amplitude Encoded Radio induced Signal) と呼ばれる新しい測定プロトコルを用いて, テスラスケール磁場におけるNV-NMRの実験可能性のシミュレーションと理論的解析を行った。 DRACAERISはNMRサンプルの縦磁化をはるかに低い駆動のRabi周波数で検出し、技術的にはNV検出に適している。 パルス誤差、有限パルス長、核スピンスピン結合がNMRスペクトルに与える影響を論じる。 DRACAERISは従来の縦磁化検出プロトコルよりもパルス不完全性や非共鳴効果の影響を受けにくいことが判明した。 また,実験実施のための妥当なパラメータも同定する。

Nitrogen vacancy (NV) centers in diamond enable nuclear magnetic resonance (NMR) spectroscopy of samples at the nano- and micron scales. However, at typical tesla-scale NMR magnetic field strengths, NV-NMR protocols become difficult to implement due to the challenge of driving fast NV pulse sequences sensitive to nuclear Larmor frequencies above a few megahertz. We perform simulations and theoretical analysis of the experimental viability of NV-NMR at tesla-scale magnetic fields using a new measurement protocol called DRACAERIS (Double Rewound ACquisition Amplitude Encoded Radio Induced Signal). DRACAERIS detects the NMR sample's longitudinal magnetization at a much lower driven Rabi frequency, more suitable technically for NV detection. We discuss how pulse errors, finite pulse lengths, and nuclear spin-spin couplings affect the resulting NMR spectra. We find that DRACAERIS is less susceptible to pulse imperfections and off-resonance effects than previous protocols for longitudinal magnetization detection. We also identify reasonable parameters for experimental implementation.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-16
# MixEHR-SurG:電子健康記録から死亡関連トピックを推定するための共同比例的ハザードとガイド付きトピックモデル

MixEHR-SurG: a joint proportional hazard and guided topic model for inferring mortality-associated topics from electronic health records ( http://arxiv.org/abs/2312.13454v3 )

ライセンス: Link先を確認
Yixuan Li, Archer Y. Yang, Ariane Marelli, Yue Li, (参考訳) 生存モデルは、医療従事者が死亡や入院の寛解などの患者結果に対する臨床変数の予後上の重要性を評価し、パーソナライズされた治療体制を設計するのに役立ちます。 電子健康記録(Electronic Health Records, EHRs)は, 各患者に対して, 組織的に記録された臨床特徴に基づいて, 大規模生存分析の公約を定めている。 しかし、既存の生存モデルは高次元および多モードのEHRデータにスケールしないか、解釈が難しいかのいずれかである。 本研究では、異種EHRデータとモデル生存ハザードを同時に統合するために、MixEHR-SurGと呼ばれる教師付きトピックモデルを提案する。 1) EHR のトピック推論と Cox の比例的ハザードの可能性の統合,(2) PheCode の概念を用いて患者固有のトピックハイパーパラメータを統合することで,それぞれのトピックを PheCode 関連表現型と同一視できる,(3) マルチモーダルサバイバル・トピック推論である。 これにより、患者死亡に関連するPheCode固有の表現型トピックを推測できる、高度に解釈可能なサバイバルトピックモデルが導かれる。 シミュレーションデータセットと2つの実世界EHRデータセットを用いてMixEHR-SurGを評価した。ケベック先天性心疾患(CHD)データでは,75,187名,ユニークなICD符号が1,767名,MIMIC-IIIは1,458名,マルチモーダルEHRレコードが1,458名であった。 ベースラインと比較して、MixEHR-SurGは、シミュレーションデータセットでは平均AUROCスコアが0.89、CHDデータセットでは平均AUROCが0.645、死亡予測では優れた動的AUROCを達成した。 定性的には、MixEHR-SurGは、心不全入院後のCHD患者の重症心疾患と、ICU退院後のMIMIC-III患者の死亡率の増加を伴う重症脳損傷を関連づける。

Survival models can help medical practitioners to evaluate the prognostic importance of clinical variables to patient outcomes such as mortality or hospital readmission and subsequently design personalized treatment regimes. Electronic Health Records (EHRs) hold the promise for large-scale survival analysis based on systematically recorded clinical features for each patient. However, existing survival models either do not scale to high dimensional and multi-modal EHR data or are difficult to interpret. In this study, we present a supervised topic model called MixEHR-SurG to simultaneously integrate heterogeneous EHR data and model survival hazard. Our contributions are three-folds: (1) integrating EHR topic inference with Cox proportional hazards likelihood; (2) integrating patient-specific topic hyperparameters using the PheCode concepts such that each topic can be identified with exactly one PheCode-associated phenotype; (3) multi-modal survival topic inference. This leads to a highly interpretable survival topic model that can infer PheCode-specific phenotype topics associated with patient mortality. We evaluated MixEHR-SurG using a simulated dataset and two real-world EHR datasets: the Quebec Congenital Heart Disease (CHD) data consisting of 8,211 subjects with 75,187 outpatient claim records of 1,767 unique ICD codes; the MIMIC-III consisting of 1,458 subjects with multi-modal EHR records. Compared to the baselines, MixEHR-SurG achieved a superior dynamic AUROC for mortality prediction, with a mean AUROC score of 0.89 in the simulation dataset and a mean AUROC of 0.645 on the CHD dataset. Qualitatively, MixEHR-SurG associates severe cardiac conditions with high mortality risk among the CHD patients after the first heart failure hospitalization and critical brain injuries with increased mortality among the MIMIC-III patients after their ICU discharge.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-16
# 社会移動:予測可能な人間の軌道予測

Social-Transmotion: Promptable Human Trajectory Prediction ( http://arxiv.org/abs/2312.16168v2 )

ライセンス: Link先を確認
Saeed Saadatnejad, Yang Gao, Kaouther Messaoud, Alexandre Alahi, (参考訳) 正確な人間の軌道予測は、自動運転車、ロボット工学、監視システムなどの応用に不可欠である。 しかし、既存のモデルでは、人間が空間をナビゲートする際に意識的にコミュニケーションする非言語的な社会的手がかりを十分に活用できないことが多い。 これを解決するために,多種多様な視覚的手がかりを利用して人間の行動を予測する汎用トランスフォーマーモデルであるSocial-Transmotionを導入する。 自然言語処理(NLP)から人間の軌道予測のタスクへのプロンプトのアイデアを変換し、そこでは、プロンプトを地上のx-y座標列、画像平面のボックスの境界、または2Dまたは3Dでキーポイントをポーズさせる。 これにより、軌跡データが増大し、人間の軌跡予測が強化される。 マスキング手法を用いて、利用可能な視覚的手がかりに基づいてエージェント間の時空間的相互作用を捕捉し、柔軟性と適応性を示す。 2D対3Dのポーズと、限られたポーズの組み合わせのメリットを掘り下げる。 さらに,人間の軌道予測を最適化するためには,どのキーポイントと時間ステップが不可欠かを特定するための空間的・時間的注意マップについても検討する。 提案手法は,JTA,JRDB,歩行者,道路交通のサイクリスト,ETH-UCYなど,複数のデータセットで検証されている。 コードは、https://github.com/vita-epfl/social-transmotion.comで公開されている。

Accurate human trajectory prediction is crucial for applications such as autonomous vehicles, robotics, and surveillance systems. Yet, existing models often fail to fully leverage the non-verbal social cues human subconsciously communicate when navigating the space. To address this, we introduce Social-Transmotion, a generic Transformer-based model that exploits diverse and numerous visual cues to predict human behavior. We translate the idea of a prompt from Natural Language Processing (NLP) to the task of human trajectory prediction, where a prompt can be a sequence of x-y coordinates on the ground, bounding boxes in the image plane, or body pose keypoints in either 2D or 3D. This, in turn, augments trajectory data, leading to enhanced human trajectory prediction. Using masking technique, our model exhibits flexibility and adaptability by capturing spatiotemporal interactions between agents based on the available visual cues. We delve into the merits of using 2D versus 3D poses, and a limited set of poses. Additionally, we investigate the spatial and temporal attention map to identify which keypoints and time-steps in the sequence are vital for optimizing human trajectory prediction. Our approach is validated on multiple datasets, including JTA, JRDB, Pedestrians and Cyclists in Road Traffic, and ETH-UCY. The code is publicly available: https://github.com/vita-epfl/social-transmotion.
翻訳日:2024-04-19 00:16:23 公開日:2024-04-16
# ナルト:不確実な標的観測から神経活動的再構築

NARUTO: Neural Active Reconstruction from Uncertain Target Observations ( http://arxiv.org/abs/2402.18771v2 )

ライセンス: Link先を確認
Ziyue Feng, Huangying Zhan, Zheng Chen, Qingan Yan, Xiangyu Xu, Changjiang Cai, Bing Li, Qilun Zhu, Yi Xu, (参考訳) 本稿では,ハイブリッド型ニューラル表現と不確実性学習を組み合わせたニューラルアクティブ再構築システムであるナルートについて述べる。 本研究の中心となるのは、環境を積極的に再構築しながら、再構成の不確実性を動的に定量化する不確実性学習モジュールの導入である。 学習した不確実性を利用して、ゴール探索と効率的な経路計画のための新しい不確実性集約戦略を提案する。 我々のシステムは、不確実な観測をターゲットとして自律的に探索し、顕著な完全性と忠実さで環境を再構築する。 また,SOTAニューラルSLAMシステムを能動線サンプリング戦略により拡張することにより,この不確実性を考慮したアプローチの有用性を実証する。 室内シーンシミュレーターを用いた各種環境におけるNARUTOの広範囲な評価は、ReplicaやMP3Dといったベンチマークデータセットの顕著な結果から、アクティブリビルドにおける優れたパフォーマンスと最先端のステータスを確認している。

We present NARUTO, a neural active reconstruction system that combines a hybrid neural representation with uncertainty learning, enabling high-fidelity surface reconstruction. Our approach leverages a multi-resolution hash-grid as the mapping backbone, chosen for its exceptional convergence speed and capacity to capture high-frequency local features.The centerpiece of our work is the incorporation of an uncertainty learning module that dynamically quantifies reconstruction uncertainty while actively reconstructing the environment. By harnessing learned uncertainty, we propose a novel uncertainty aggregation strategy for goal searching and efficient path planning. Our system autonomously explores by targeting uncertain observations and reconstructs environments with remarkable completeness and fidelity. We also demonstrate the utility of this uncertainty-aware approach by enhancing SOTA neural SLAM systems through an active ray sampling strategy. Extensive evaluations of NARUTO in various environments, using an indoor scene simulator, confirm its superior performance and state-of-the-art status in active reconstruction, as evidenced by its impressive results on benchmark datasets like Replica and MP3D.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-16
# スクイーズ状態におけるスカラー場の絡み合いエントロピー

Entanglement Entropy of a Scalar Field in a Squeezed State ( http://arxiv.org/abs/2403.03136v2 )

ライセンス: Link先を確認
Dimitrios Katsinis, Georgios Pastras, Nikolaos Tetradis, (参考訳) 3+1次元の圧縮状態における自由スカラー場に対する球面領域内の絡み合いエントロピーについて検討する。 小さいスクイーズであっても体積項が出現し、その係数は本質的に場の質量とは独立であることを示す。 これは、任意の量子状態における絡み合いエントロピーは、より小さなサブシステムの自由度の数に比例する、というペイジの主張と一致する。 圧縮状態は、絡み合う表面の面積に比例する項によって支配される絡み合いエントロピーを引き起こす基底状態やコヒーレント状態とは対照的に、任意の量子状態と見なすことができる。

We study the entanglement entropy within a spherical region for a free scalar field in a squeezed state in 3+1 dimensions. We show that, even for small squeezing, a volume term appears, whose coefficient is essentially independent of the field mass. This is in line with Page's argument that the entanglement entropy in an arbitrary quantum state is proportional to the number of degrees of freedom of the smaller subsystem. It follows that squeezed states can be considered as arbitrary quantum states, in contrast to the ground or coherent states that give rise to entanglement entropy that is dominated by a term proportional to the area of the entangling surface.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-16
# BOPチャレンジ2023 種目と未知の剛体物体の検出・セグメンテーション・ポス推定に関する研究(BOP.情報ネットワーク,一般セッション)

BOP Challenge 2023 on Detection, Segmentation and Pose Estimation of Seen and Unseen Rigid Objects ( http://arxiv.org/abs/2403.09799v2 )

ライセンス: Link先を確認
Tomas Hodan, Martin Sundermeyer, Yann Labbe, Van Nguyen Nguyen, Gu Wang, Eric Brachmann, Bertram Drost, Vincent Lepetit, Carsten Rother, Jiri Matas, (参考訳) 我々は,RGB/RGB-D画像と関連するタスクから,モデルに基づく6Dオブジェクトのポーズ推定の最先端を捉えるために,一連の公開コンペティションの第5回であるBOP Challenge 2023の評価方法論,データセット,結果について述べる。 2022年の3つのタスク(モデルに基づく2D検出、2Dセグメンテーション、およびトレーニング中に見られる物体の6Dローカライゼーション)に加えて、2023年のチャレンジでは、トレーニング中に見えない物体に焦点を当てた新しいタスクが導入された。 新しいタスクでは、提供された3Dオブジェクトモデルから、短いオンボーディングステージ(最大5分、1GPU)の間に新しいオブジェクトを学習する必要がある。 未確認物体(GenFlow)の6Dローカライズのための最良の2023の手法は、目に見える物体(CosyPose)の2020年の最良の手法の精度に顕著に到達したが、顕著に遅い。 観察対象のベスト2023法(GPose)は、適度な精度向上を達成したが、最高2022法(GDRNPP)と比較して43%の実行時間改善を実現した。 2017年以降、観測対象の6Dローカライゼーションの精度は50%以上向上した(56.9から85.6 AR_C)。 オンライン評価システムはオープンであり、http://bop.felk.cvut.cz/.comで利用可能である。

We present the evaluation methodology, datasets and results of the BOP Challenge 2023, the fifth in a series of public competitions organized to capture the state of the art in model-based 6D object pose estimation from an RGB/RGB-D image and related tasks. Besides the three tasks from 2022 (model-based 2D detection, 2D segmentation, and 6D localization of objects seen during training), the 2023 challenge introduced new variants of these tasks focused on objects unseen during training. In the new tasks, methods were required to learn new objects during a short onboarding stage (max 5 minutes, 1 GPU) from provided 3D object models. The best 2023 method for 6D localization of unseen objects (GenFlow) notably reached the accuracy of the best 2020 method for seen objects (CosyPose), although being noticeably slower. The best 2023 method for seen objects (GPose) achieved a moderate accuracy improvement but a significant 43% run-time improvement compared to the best 2022 counterpart (GDRNPP). Since 2017, the accuracy of 6D localization of seen objects has improved by more than 50% (from 56.9 to 85.6 AR_C). The online evaluation system stays open and is available at: http://bop.felk.cvut.cz/.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-16
# 乱浅ReLUネットワークによる近似とモデル参照適応制御への応用

Approximation with Random Shallow ReLU Networks with Applications to Model Reference Adaptive Control ( http://arxiv.org/abs/2403.17142v2 )

ライセンス: Link先を確認
Andrew Lamperski, Tyler Lekang, (参考訳) ニューラルネットワークは、非線形システムの適応制御や強化学習の関連手法に定期的に採用されている。 一般的なアーキテクチャでは、重みとバイアスを事前に固定し、出力層のみをトレーニングする単一の隠れ層(すなわち浅いネットワーク)を持つニューラルネットワークを使用する。 古典的な結果は、境界領域上の任意の連続関数を近似できるこのタイプのニューラルネットワークが存在することを示しているが、それらは非構成的であり、実際に使用されるネットワークは近似保証を持たない。 したがって、ニューラルネットワークによる制御に必要な近似特性は、証明されるよりもむしろ仮定される。 本稿では、十分に滑らかな関数に対して、ランダムに生成される重みとバイアスを持つReLUネットワークが、高い確率で$O(m^{-1/2})$の誤差を達成し、m$がニューロンの数であることを示すことで、このギャップを埋めることを目指している。 球面上の重みを均一に生成するのに十分であり、偏差は一定間隔で均一に発生する。 本稿では,モデル参照適応制御アプリケーションにおいて,必要な精度を近似するために,その結果をどのように利用できるかを示す。

Neural networks are regularly employed in adaptive control of nonlinear systems and related methods of reinforcement learning. A common architecture uses a neural network with a single hidden layer (i.e. a shallow network), in which the weights and biases are fixed in advance and only the output layer is trained. While classical results show that there exist neural networks of this type that can approximate arbitrary continuous functions over bounded regions, they are non-constructive, and the networks used in practice have no approximation guarantees. Thus, the approximation properties required for control with neural networks are assumed, rather than proved. In this paper, we aim to fill this gap by showing that for sufficiently smooth functions, ReLU networks with randomly generated weights and biases achieve $L_{\infty}$ error of $O(m^{-1/2})$ with high probability, where $m$ is the number of neurons. It suffices to generate the weights uniformly over a sphere and the biases uniformly over an interval. We show how the result can be used to get approximations of required accuracy in a model reference adaptive control application.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-16
# リモートセンシングにおける安全な損失画像圧縮のための畳み込み変分オートエンコーダ

Convolutional variational autoencoders for secure lossy image compression in remote sensing ( http://arxiv.org/abs/2404.03696v2 )

ライセンス: Link先を確認
Alessandro Giuliano, S. Andrew Gadsden, Waleed Hilal, John Yawney, (参考訳) リモートセンシングデータの量は、主にセンサーの配列を備えた空間と空気のプラットフォームが多すぎるため、急速に増加しています。 ハードウェアとバッテリの制約が限られているため、データは処理のために地球に送信される。 大量のデータとセキュリティ上の懸念から、このデータの地球への送信コストを最小限に抑えつつ、復元品質を維持できる新しい圧縮と暗号化技術が求められている。 本研究では,畳み込み変分オートエンコーダ(CVAE)に基づく画像圧縮について検討した。 CVAEは、JPEG2000のような従来の圧縮手法を圧縮ベンチマークデータセットのかなりのマージンで上回ることが示されている。 提案モデルでは, CVAEの強みを生かし, データを高洞察の潜伏空間に抽象化し, エントロピーボトルネックの利用と組み合わせることで, 圧縮性と復元品質の最適バランスを求めることができる。 バランスは、速度歪曲線を表す複合損失関数を最適化することにより達成される。

The volume of remote sensing data is experiencing rapid growth, primarily due to the plethora of space and air platforms equipped with an array of sensors. Due to limited hardware and battery constraints the data is transmitted back to Earth for processing. The large amounts of data along with security concerns call for new compression and encryption techniques capable of preserving reconstruction quality while minimizing the transmission cost of this data back to Earth. This study investigates image compression based on convolutional variational autoencoders (CVAE), which are capable of substantially reducing the volume of transmitted data while guaranteeing secure lossy image reconstruction. CVAEs have been demonstrated to outperform conventional compression methods such as JPEG2000 by a substantial margin on compression benchmark datasets. The proposed model draws on the strength of the CVAEs capability to abstract data into highly insightful latent spaces, and combining it with the utilization of an entropy bottleneck is capable of finding an optimal balance between compressibility and reconstruction quality. The balance is reached by optimizing over a composite loss function that represents the rate-distortion curve.
翻訳日:2024-04-19 00:06:38 公開日:2024-04-16
# 分別データに基づくグラディエントDescenceのインシシシトバイアス

The Implicit Bias of Gradient Descent on Separable Data ( http://arxiv.org/abs/1710.10345v6 )

ライセンス: Link先を確認
Daniel Soudry, Elad Hoffer, Mor Shpigel Nacson, Suriya Gunasekar, Nathan Srebro, (参考訳) 線形分離可能なデータセット上での等質線形予測器を用いた非正規化ロジスティック回帰問題の勾配勾配について検討した。 予測器は最大マージン(シャープマージンSVM)解の方向へ収束することを示す。 この結果は、無限遠で無限小を持つ他のモノトン減少損失関数にも一般化され、多クラス問題にも応用され、一定の制限された設定でディープネットワーク内の重み層を訓練する。 さらに、この収束は非常に遅く、損失自体の収束における対数のみを示す。 これは、トレーニングエラーがゼロでトレーニング損失が極めて小さく、検証損失が増加しても、ロジスティックまたはクロスエントロピー損失の最適化を継続するメリットを説明するのに役立つ。 我々の手法は、より複雑なモデルや他の最適化手法で暗黙の正規化を理解するのにも役立ちます。

We examine gradient descent on unregularized logistic regression problems, with homogeneous linear predictors on linearly separable datasets. We show the predictor converges to the direction of the max-margin (hard margin SVM) solution. The result also generalizes to other monotone decreasing loss functions with an infimum at infinity, to multi-class problems, and to training a weight layer in a deep network in a certain restricted setting. Furthermore, we show this convergence is very slow, and only logarithmic in the convergence of the loss itself. This can help explain the benefit of continuing to optimize the logistic or cross-entropy loss even after the training error is zero and the training loss is extremely small, and, as we show, even if the validation loss increases. Our methodology can also aid in understanding implicit regularization n more complex models and with other optimization methods.
翻訳日:2024-04-18 20:15:17 公開日:2024-04-16
# 予測符号化とバックプロパゲーションの関係について

On the relationship between predictive coding and backpropagation ( http://arxiv.org/abs/2106.13082v5 )

ライセンス: Link先を確認
Robert Rosenbaum, (参考訳) ニューラルネットワークはしばしば生物学的ニューラルネットワークの抽象モデルとして解釈されるが、通常は生物学的に非現実的なバックプロパゲーションアルゴリズムとその変種を用いて訓練される。 予測符号化は、ニューラルネットワークのトレーニングのためのバックプロパゲーションに代わる、潜在的に生物学的に現実的な代替物として提案されている。 この原稿は、教師付き学習タスクにおけるフィードフォワード人工ニューラルネットワークのトレーニングにおける予測符号化とバックプロパゲーションの数学的関係に関する最近の研究をレビューし、拡張している。 PyTorchニューラルネットワークモデルを用いて予測符号化を行うために,生物学習のモデルとしての予測符号化と深部ニューラルネットワークの解釈にこれらの結果の意義を,関数のリポジトリであるTorch2PCとともに論じる。

Artificial neural networks are often interpreted as abstract models of biological neuronal networks, but they are typically trained using the biologically unrealistic backpropagation algorithm and its variants. Predictive coding has been proposed as a potentially more biologically realistic alternative to backpropagation for training neural networks. This manuscript reviews and extends recent work on the mathematical relationship between predictive coding and backpropagation for training feedforward artificial neural networks on supervised learning tasks. Implications of these results for the interpretation of predictive coding and deep neural networks as models of biological learning are discussed along with a repository of functions, Torch2PC, for performing predictive coding with PyTorch neural network models.
翻訳日:2024-04-18 20:15:17 公開日:2024-04-16
# GenURL: 教師なし表現学習のための一般的なフレームワーク

GenURL: A General Framework for Unsupervised Representation Learning ( http://arxiv.org/abs/2110.14553v4 )

ライセンス: Link先を確認
Siyuan Li, Zicheng Liu, Zelin Zang, Di Wu, Zhiyuan Chen, Stan Z. Li, (参考訳) 教師なしの高次元データのコンパクトな埋め込みを学習する教師なし表現学習(URL)は,近年顕著な進歩を遂げている。 しかし、異なる要求に対するURLの開発は独立しており、特にタスクの数が増加するにつれてアルゴリズムの一般化が制限される。 例えば、次元縮小法、t-SNE、UMAPは、グローバルな幾何学構造を保存することによってペアワイズデータ関係を最適化する一方、自己教師付き学習、SimCLR、BYOLは、特定の拡張の下でインスタンスの局所統計をマイニングすることに焦点を当てている。 このジレンマに対処するために、様々なURLタスクにスムーズに適応できる統一類似性ベースのURLフレームワークGenURLを要約し、提案する。 本稿では、URLタスクを、データ構造モデリング(DSM)と低次元変換(LDT)に沸騰する最適な低次元表現を求めるのに役立つ、データ幾何学構造上の異なる暗黙の制約として捉えている。 具体的には、DMSはグローバルな構造を記述するための構造ベースのサブモジュールを提供しており、LLTは与えられたプレテキストタスクでコンパクトな低次元埋め込みを学習する。 さらに,DMS と LDT を自然に接続する目的関数である General Kullback-Leibler divergence (GKL) を提案する。 総合的な実験により、GenURLは、自己教師付き視覚学習、非教師なし知識蒸留(KD)、グラフ埋め込み(GE)、次元縮小において、一貫した技術性能を達成することが示された。

Unsupervised representation learning (URL), which learns compact embeddings of high-dimensional data without supervision, has made remarkable progress recently. However, the development of URLs for different requirements is independent, which limits the generalization of the algorithms, especially prohibitive as the number of tasks grows. For example, dimension reduction methods, t-SNE, and UMAP optimize pair-wise data relationships by preserving the global geometric structure, while self-supervised learning, SimCLR, and BYOL focus on mining the local statistics of instances under specific augmentations. To address this dilemma, we summarize and propose a unified similarity-based URL framework, GenURL, which can smoothly adapt to various URL tasks. In this paper, we regard URL tasks as different implicit constraints on the data geometric structure that help to seek optimal low-dimensional representations that boil down to data structural modeling (DSM) and low-dimensional transformation (LDT). Specifically, DMS provides a structure-based submodule to describe the global structures, and LDT learns compact low-dimensional embeddings with given pretext tasks. Moreover, an objective function, General Kullback-Leibler divergence (GKL), is proposed to connect DMS and LDT naturally. Comprehensive experiments demonstrate that GenURL achieves consistent state-of-the-art performance in self-supervised visual learning, unsupervised knowledge distillation (KD), graph embeddings (GE), and dimension reduction.
翻訳日:2024-04-18 20:15:17 公開日:2024-04-16
# Motiflets -- 時系列におけるMotifの簡易かつ正確な検出

Motiflets -- Simple and Accurate Detection of Motifs in Time Series ( http://arxiv.org/abs/2206.03735v2 )

ライセンス: Link先を確認
Patrick Schäfer, Ulf Leser, (参考訳) 時系列のモチーフは直感的に、より大きな時系列の中でほぼ同じことを繰り返す短い時系列である。 このようなモチーフは、心電図記録の心拍数、ポップソングのリフ、脳波睡眠データのスリープスピンドルなどの隠された構造を表すことが多い。 モチーフ発見(MD)は、与えられた入力系列においてそのようなモチーフを見つけるタスクである。 モチーフが何であるかには様々な定義があるため、多くの異なるアルゴリズムが存在する。 中心的なパラメータとして、それらはすべてモチーフの長さ l とモチーフの発生の間の最大距離 r を取る。 しかし、実際には、特に r に対する適切な値は事前決定が非常に困難であり、非常に類似した r 値であっても、モチーフは高い可変性を示す。 したがって、興味深いモチーフを見つけるには、広範な試行錯誤が必要となる。 本稿では,MD問題に対して異なるアプローチを示す。 k-モティフレットを、最大対距離が最小となる長さ l のモチーフの正確な k 発生の集合として定義する。 我々のアプローチの中心パラメータは距離しきい値 r ではなく、モチーフの所望数 k であり、より直感的で設定が容易である。 この定義に基づき、k-Motiflet の正確な近似アルゴリズムを示し、それらの複雑性を解析する。 提案手法をより簡単にするために,入力パラメータの有意な値を自動的に決定する統計ツールについて述べる。 実世界の複数のデータセットの評価と4つのSotA MDアルゴリズムとの比較により、提案アルゴリズムは競合アルゴリズムよりも定量的に優れていることを示し、高い類似度でより大きなモチーフセットを見つけ、質的に優れていることを示し、手動チューニングを必要とせず、より明確で容易にモチーフを解釈できることを示した。

A time series motif intuitively is a short time series that repeats itself approximately the same within a larger time series. Such motifs often represent concealed structures, such as heart beats in an ECG recording, the riff in a pop song, or sleep spindles in EEG sleep data. Motif discovery (MD) is the task of finding such motifs in a given input series. As there are varying definitions of what exactly a motif is, a number of different algorithms exist. As central parameters they all take the length l of the motif and the maximal distance r between the motif's occurrences. In practice, however, especially suitable values for r are very hard to determine upfront, and found motifs show a high variability even for very similar r values. Accordingly, finding an interesting motif requires extensive trial-and-error. In this paper, we present a different approach to the MD problem. We define k-Motiflets as the set of exactly k occurrences of a motif of length l, whose maximum pairwise distance is minimal. This turns the MD problem upside-down: The central parameter of our approach is not the distance threshold r, but the desired number of occurrence k of the motif, which we show is considerably more intuitive and easier to set. Based on this definition, we present exact and approximate algorithms for finding k-Motiflets and analyze their complexity. To further ease the use of our method, we describe statistical tools to automatically determine meaningful values for its input parameters. By evaluation on several real-world data sets and comparison to four SotA MD algorithms, we show that our proposed algorithm is both quantitatively superior to its competitors, finding larger motif sets at higher similarity, and qualitatively better, leading to clearer and easier to interpret motifs without any need for manual tuning.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-16
# パネルデータを用いた因果推論のための予測アルゴリズム

Forecasting Algorithms for Causal Inference with Panel Data ( http://arxiv.org/abs/2208.03489v3 )

ライセンス: Link先を確認
Jacob Goldin, Julian Nyarko, Justin Young, (参考訳) パネルデータによる因果推論の実施は、社会科学研究における中核的な課題である。 我々は,処理ユニットが処理を行なわなかったことをより正確に解釈するために,時系列予測のためのディープニューラルネットワークアーキテクチャ(N-BEATSアルゴリズム)を適用した。 様々な設定において、結果として得られる推定器(`SyNBEATS'')は、一般的な手法(合成制御、双方向の固定効果)よりも大幅に優れ、最近提案された手法(合成差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分差分)よりも高い。 この推定器の実装は一般公開されている。 本結果は,パネルデータ設定における因果推論を改善するために,予測文献の進歩をいかに活用できるかを強調した。

Conducting causal inference with panel data is a core challenge in social science research. We adapt a deep neural architecture for time series forecasting (the N-BEATS algorithm) to more accurately impute the counterfactual evolution of a treated unit had treatment not occurred. Across a range of settings, the resulting estimator (``SyNBEATS'') significantly outperforms commonly employed methods (synthetic controls, two-way fixed effects), and attains comparable or more accurate performance compared to recently proposed methods (synthetic difference-in-differences, matrix completion). An implementation of this estimator is available for public use. Our results highlight how advances in the forecasting literature can be harnessed to improve causal inference in panel data settings.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-16
# オープンワールドのためのTunable Hybrid Proposal Networks

Tunable Hybrid Proposal Networks for the Open World ( http://arxiv.org/abs/2208.11050v3 )

ライセンス: Link先を確認
Matthew Inkawhich, Nathan Inkawhich, Hai Li, Yiran Chen, (参考訳) 現在の最先端のオブジェクト提案ネットワークは、クローズドワールドの仮定でトレーニングされる。 これらのモデルは、重要な新しいオブジェクトが遭遇する可能性のあるオープンな環境において、高いリコールを提供することができない。 この問題に対処しようとする最近の研究はいくつかあるが、提案ネットワークの最適動作はデータやアプリケーションによって大きく異なる可能性があるとは考えていない。 私たちのゴールは、さまざまなオープンワールド設定に合わせて簡単に調整できるフレキシブルな提案ソリューションを提供することです。 この目的のために、調整可能なハイブリッドアーキテクチャ、新しい自己学習手順、動的損失要素を活用するTunable Hybrid Proposal Network (THPN) を設計し、未知のオブジェクト検出性能と未知のオブジェクト検出性能のトレードオフを最適化する。 本手法を徹底的に評価するために,既知のクラス多様性とラベル数を変化させることで,ラベルバイアスの度合いを変動させるいくつかの新しい課題を考案した。 すべてのタスクにおいて、THPNは既存のベースライン(例えば、RPN、OLN)を容易に上回ります。 また,本手法はデータ効率も高く,ラベル付きデータのごく一部でベースラインリコールを上回っている。

Current state-of-the-art object proposal networks are trained with a closed-world assumption, meaning they learn to only detect objects of the training classes. These models fail to provide high recall in open-world environments where important novel objects may be encountered. While a handful of recent works attempt to tackle this problem, they fail to consider that the optimal behavior of a proposal network can vary significantly depending on the data and application. Our goal is to provide a flexible proposal solution that can be easily tuned to suit a variety of open-world settings. To this end, we design a Tunable Hybrid Proposal Network (THPN) that leverages an adjustable hybrid architecture, a novel self-training procedure, and dynamic loss components to optimize the tradeoff between known and unknown object detection performance. To thoroughly evaluate our method, we devise several new challenges which invoke varying degrees of label bias by altering known class diversity and label count. We find that in every task, THPN easily outperforms existing baselines (e.g., RPN, OLN). Our method is also highly data efficient, surpassing baseline recall with a fraction of the labeled data.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-16
# 補助分布を用いた学習アルゴリズムの一般化誤差境界

Learning Algorithm Generalization Error Bounds via Auxiliary Distributions ( http://arxiv.org/abs/2210.00483v2 )

ライセンス: Link先を確認
Gholamali Aminian, Saeed Masiha, Laura Toni, Miguel R. D. Rodrigues, (参考訳) 一般化エラー境界は、機械学習モデルがどのように機能するかを理解するのに不可欠である。 本研究では,教師あり学習シナリオに適した予測一般化誤差に新たな上限をもたらす新たな手法,すなわち補助分布法を提案する。 我々は、トレーニングサンプルの集合をモデル化するランダム変数と、仮説の集合をモデル化する別のランダム変数の間に、$\alpha$-Jensen-Shannon, $\alpha$-R\enyi ($0< \alpha < 1$)情報を含む新しい境界に対して、いくつかの条件下で、一般上界を特殊化できることを示します。 $\alpha$-Jensen-Shannon 情報に基づく上界も有限である。 さらに, 教師付き学習文脈における学習アルゴリズムの過大なリスクに関する上限を導出するために, 我々の補助的分布法を用いて, 教師付き学習アルゴリズムにおける分布ミスマッチシナリオ下での一般化誤差を, テストとトレーニングデータサンプルの分布の差分を$\alpha$-Jensen-Shannonあるいは$\alpha$-R\enyiとモデル化する方法を示した。 また,提案した上界が,他の上界よりも厳密な条件についても概説する。

Generalization error bounds are essential for comprehending how well machine learning models work. In this work, we suggest a novel method, i.e., the Auxiliary Distribution Method, that leads to new upper bounds on expected generalization errors that are appropriate for supervised learning scenarios. We show that our general upper bounds can be specialized under some conditions to new bounds involving the $\alpha$-Jensen-Shannon, $\alpha$-R\'enyi ($0< \alpha < 1$) information between a random variable modeling the set of training samples and another random variable modeling the set of hypotheses. Our upper bounds based on $\alpha$-Jensen-Shannon information are also finite. Additionally, we demonstrate how our auxiliary distribution method can be used to derive the upper bounds on excess risk of some learning algorithms in the supervised learning context {\blue and the generalization error under the distribution mismatch scenario in supervised learning algorithms, where the distribution mismatch is modeled as $\alpha$-Jensen-Shannon or $\alpha$-R\'enyi divergence between the distribution of test and training data samples distributions.} We also outline the conditions for which our proposed upper bounds might be tighter than other earlier upper bounds.
翻訳日:2024-04-18 20:09:36 公開日:2024-04-16
# 上流を考える - AIサプライチェーンにおける倫理と政策機会

Thinking Upstream: Ethics and Policy Opportunities in AI Supply Chains ( http://arxiv.org/abs/2303.07529v2 )

ライセンス: Link先を確認
David Gray Widder, Richmond Wong, (参考訳) 子どもたちが1990年代初頭にランニングシューズを縫う様子が撮られた後、ナイキは「サプライヤー工場の労働条件」を最初に否定した。 2023年、OpenAIは、ケニアの労働者がChatGPTモデルからトラウマのコンテンツをフィルタリングするために1時間に2ドル以下を支払ったと批判した。 本稿では,AI倫理に関する政策介入をサプライチェーン問題とみなす必要があると論じる。

After children were pictured sewing its running shoes in the early 1990s, Nike at first disavowed the "working conditions in its suppliers' factories", before public pressure led them to take responsibility for ethics in their upstream supply chain. In 2023, OpenAI responded to criticism that Kenyan workers were paid less than $2 per hour to filter traumatic content from its ChatGPT model by stating in part that it had outsourced the work to a subcontractor, who managed workers' payment and mental health concerns. In this position paper, we argue that policy interventions for AI Ethics must consider AI as a supply chain problem, given how the political economy and intra-firm relations structure AI production, in particular examining opportunities upstream.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-16
# ANTN: 量子多体シミュレーションのための自己回帰型ニューラルネットワークとテンソルネットワークのブリッジ

ANTN: Bridging Autoregressive Neural Networks and Tensor Networks for Quantum Many-Body Simulation ( http://arxiv.org/abs/2304.01996v3 )

ライセンス: Link先を確認
Zhuo Chen, Laker Newhouse, Eddie Chen, Di Luo, Marin Soljačić, (参考訳) 量子多体物理シミュレーションは基礎科学の理解に重要な影響を与え、量子材料設計や量子技術への応用がある。 しかし、粒子数に関してヒルベルト空間が指数関数的に大きくなるため、直接シミュレーションは困難である。 テンソルネットワークとニューラルネットワークで量子状態を表現することは、近似シミュレーションのための最先端の2つの方法であるが、それぞれに表現性と帰納バイアスの点で独自の制限がある。 これらの課題に対処するため、テンソルネットワークと自己回帰ニューラルネットワークを橋渡しする新しいアーキテクチャであるAutoregressive Neural TensorNet(ANTN)を開発した。 自己回帰型ニューラルテンソルネットは正規化波動関数をパラメータ化し、正確なサンプリングを可能にし、テンソルネットワークと自己回帰型ニューラルネットワークの表現性を一般化し、自己回帰型ニューラルネットワークから様々な対称性を継承することを示した。 我々は、量子状態学習と、異なるシステムサイズと結合パラメータを持つ2D $J_1$-$J_2$Heisenbergモデルの基底状態を発見し、テンソルネットワークと自己回帰ニューラルネットワークの両方より優れていることを実証する。 我々の研究は、量子多体物理シミュレーション、量子技術設計、人工知能における生成モデリングの新しい機会を開く。

Quantum many-body physics simulation has important impacts on understanding fundamental science and has applications to quantum materials design and quantum technology. However, due to the exponentially growing size of the Hilbert space with respect to the particle number, a direct simulation is intractable. While representing quantum states with tensor networks and neural networks are the two state-of-the-art methods for approximate simulations, each has its own limitations in terms of expressivity and inductive bias. To address these challenges, we develop a novel architecture, Autoregressive Neural TensorNet (ANTN), which bridges tensor networks and autoregressive neural networks. We show that Autoregressive Neural TensorNet parameterizes normalized wavefunctions, allows for exact sampling, generalizes the expressivity of tensor networks and autoregressive neural networks, and inherits a variety of symmetries from autoregressive neural networks. We demonstrate our approach on quantum state learning as well as finding the ground state of the challenging 2D $J_1$-$J_2$ Heisenberg model with different systems sizes and coupling parameters, outperforming both tensor networks and autoregressive neural networks. Our work opens up new opportunities for quantum many-body physics simulation, quantum technology design, and generative modeling in artificial intelligence.
翻訳日:2024-04-18 19:59:48 公開日:2024-04-16
# 低リソースエンティティリネームに対する機械読解モデルのロバスト性評価

Evaluating the Robustness of Machine Reading Comprehension Models to Low Resource Entity Renaming ( http://arxiv.org/abs/2304.03145v2 )

ライセンス: Link先を確認
Clemencia Siro, Tunde Oluwaseyi Ajayi, (参考訳) 質問応答(QA)モデルは、Machine Reading Comprehension(MRC)タスクにおいて魅力的な結果を示している。 近年、これらのシステムは、例えばSQuADのようなデータセットの保持されたテストセットにおいて、人間よりも優れた性能を示すことが証明されているが、その堅牢性は保証されていない。 QAモデルの脆さは、性能低下による逆生成例で評価すると明らかになる。 本研究では, アフリカなどの低資源地域からのエンティティを用いて, MRCモデルからエンティティリネームへのロバスト性について検討する。 本稿では、テスト時間摂動の手法であるEntSwapを提案し、エンティティが改名されたテストセットを作成する。 特に、国、人、国籍、場所、組織、都市を名称変更し、AfriSQuAD2を作成します。 摂動テストセットを用いて,3つのMRCモデルのロバスト性を評価する。 ベースモデルと比較して、大きなモデルは、新しいエンティティに対して比較的よく機能することがわかった。 さらに,本分析の結果から,MRCモデルの性能に高い課題があることが示された。

Question answering (QA) models have shown compelling results in the task of Machine Reading Comprehension (MRC). Recently these systems have proved to perform better than humans on held-out test sets of datasets e.g. SQuAD, but their robustness is not guaranteed. The QA model's brittleness is exposed when evaluated on adversarial generated examples by a performance drop. In this study, we explore the robustness of MRC models to entity renaming, with entities from low-resource regions such as Africa. We propose EntSwap, a method for test-time perturbations, to create a test set whose entities have been renamed. In particular, we rename entities of type: country, person, nationality, location, organization, and city, to create AfriSQuAD2. Using the perturbed test set, we evaluate the robustness of three popular MRC models. We find that compared to base models, large models perform well comparatively on novel entities. Furthermore, our analysis indicates that entity type person highly challenges the MRC models' performance.
翻訳日:2024-04-18 19:59:47 公開日:2024-04-16
# CPL-NoViD:オンラインコミュニティにおけるノーム違反検出のための文脈認識型プロンプト学習

CPL-NoViD: Context-Aware Prompt-based Learning for Norm Violation Detection in Online Communities ( http://arxiv.org/abs/2305.09846v3 )

ライセンス: Link先を確認
Zihao He, Jonathan May, Kristina Lerman, (参考訳) オンラインコミュニティにおける規範違反の検出は、オンライン議論において健全で安全な空間を維持するために重要である。 既存の機械学習アプローチは、コンテキスト固有のタスクのための微調整モデルの固有の課題のため、様々なコミュニティで多様なルールや解釈に適応するのに苦労することが多い。 本稿では,各種のルールにまたがるノルム違反を検出するために,プロンプトに基づくプロンプト学習(CPL-NoViD)を提案する。 CPL-NoViDは、自然言語のプロンプトを通じてコンテキストを組み込むことでベースラインを上回り、異なるルールタイプにわたるパフォーマンスの向上を示す。 重要なことは、クロスルール型およびクロスコミュニティノルム違反検出に優れるだけでなく、数ショットの学習シナリオにも適応性を示す。 中でも注目すべきは、既存のベンチマークを超越した、標準違反検出における新たな最先端技術を確立することだ。 我々の研究は、文脈に敏感な規範違反検出のための素早い学習の可能性を強調し、オンラインコミュニティモデレーターをより良いサポートするために、より適応性のある文脈認識モデルの研究の道を開く。

Detecting norm violations in online communities is critical to maintaining healthy and safe spaces for online discussions. Existing machine learning approaches often struggle to adapt to the diverse rules and interpretations across different communities due to the inherent challenges of fine-tuning models for such context-specific tasks. In this paper, we introduce Context-aware Prompt-based Learning for Norm Violation Detection (CPL-NoViD), a novel method that employs prompt-based learning to detect norm violations across various types of rules. CPL-NoViD outperforms the baseline by incorporating context through natural language prompts and demonstrates improved performance across different rule types. Significantly, it not only excels in cross-rule-type and cross-community norm violation detection but also exhibits adaptability in few-shot learning scenarios. Most notably, it establishes a new state-of-the-art in norm violation detection, surpassing existing benchmarks. Our work highlights the potential of prompt-based learning for context-sensitive norm violation detection and paves the way for future research on more adaptable, context-aware models to better support online community moderators.
翻訳日:2024-04-18 19:59:47 公開日:2024-04-16
# 航空・宇宙ネットワークにおけるフェデレーション学習モデルアグリゲーション

Federated Learning Model Aggregation in Heterogenous Aerial and Space Networks ( http://arxiv.org/abs/2305.16351v3 )

ライセンス: Link先を確認
Fan Dong, Ali Abbasi, Henry Leung, Xin Wang, Jiayu Zhou, Steve Drew, (参考訳) フェデレートラーニング(Federated Learning)は、航空・宇宙ネットワーク(ASN)におけるネットワークとデータプライバシの制約の下で、ドローン、気球、衛星からの大規模プライベートエッジデータを活用する、有望なアプローチを提供する。 既存の研究は、学習プロセスの最適化、計算効率、通信オーバーヘッドを幅広く研究してきた。 重要かつしばしば見落とされがちな側面は、参加者が様々な知識で予測的知識を貢献し、学習されたフェデレーションモデルの品質に影響を与えることである。 本稿では、高多様性クライアントからの更新を強調し、低多様性クライアントからのクライアントの影響を小さくするWeiAvgCS(Weighted Averaging and Client Selection)フレームワークを導入することにより、この問題に対処する新しいアプローチを提案する。 データ配布の直接の共有は、クライアントから送られた追加のプライベート情報のために禁止される可能性がある。 そこで,提案手法を用いて多様性を推定する手法を提案する。 WeiAvgCSの有効性を示す大規模な実験が行われた。 WeiAvgCSはFashionMNISTで46%、CIFAR10で38%の速度で収束できる。

Federated learning offers a promising approach under the constraints of networking and data privacy constraints in aerial and space networks (ASNs), utilizing large-scale private edge data from drones, balloons, and satellites. Existing research has extensively studied the optimization of the learning process, computing efficiency, and communication overhead. An important yet often overlooked aspect is that participants contribute predictive knowledge with varying diversity of knowledge, affecting the quality of the learned federated models. In this paper, we propose a novel approach to address this issue by introducing a Weighted Averaging and Client Selection (WeiAvgCS) framework that emphasizes updates from high-diversity clients and diminishes the influence of those from low-diversity clients. Direct sharing of the data distribution may be prohibitive due to the additional private information that is sent from the clients. As such, we introduce an estimation for the diversity using a projection-based method. Extensive experiments have been performed to show WeiAvgCS's effectiveness. WeiAvgCS could converge 46% faster on FashionMNIST and 38% faster on CIFAR10 than its benchmarks on average in our experiments.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-16
# オンチップナノワイヤプラズモン導波路を用いた量子乱数生成

Quantum random number generation using an on-chip nanowire plasmonic waveguide ( http://arxiv.org/abs/2306.13490v2 )

ライセンス: Link先を確認
C. Strydom, S. Soleymani, Ş. K. Özdemir, M. S. Tame, (参考訳) 量子乱数生成器は、量子力学の本質的なランダム性を利用して、真の予測不可能な乱数を生成する。 様々な種類の量子乱数生成器がフォトニクスを用いて実現されているが、プラズモニクスによって提供される高磁場閉じ込めを利用して、デバイスフットプリントを桁違いに小さくすることができるものはほとんどない。 ここでは、オンチップのナノワイヤプラズモン導波路を光学時変に基づく量子乱数生成装置に統合する。 損失にもかかわらず、低光強度を用いて14.4Mbits/sのランダム数生成率を達成し、生成したビットは後処理なしで業界標準試験に合格する。 光強度を増大させることで、生成速度を41.4Mbits/sに向上することができ、その結果、すべてのテストにシャッフルを要した。 これは、以前の作業と比べて、生成率とデバイスサイズが大幅に増加し、減少する、という順序である。 実験では、オンチップのナノスケールプラズモン成分を量子乱数生成装置に統合することに成功した。 これにより、コンパクトでスケーラブルな量子乱数生成の新しい機会がもたらされる可能性がある。

Quantum random number generators employ the inherent randomness of quantum mechanics to generate truly unpredictable random numbers, which are essential in cryptographic applications. While a great variety of quantum random number generators have been realised using photonics, few exploit the high-field confinement offered by plasmonics, which enables device footprints an order of magnitude smaller in size. Here we integrate an on-chip nanowire plasmonic waveguide into an optical time-of-arrival based quantum random number generation setup. Despite loss, we achieve a random number generation rate of 14.4 Mbits/s using low light intensity, with the generated bits passing industry standard tests without post-processing. By increasing the light intensity, we were then able to increase the generation rate to 41.4 Mbits/s, with the resulting bits only requiring a shuffle to pass all tests. This is an order of magnitude increase in the generation rate and decrease in the device size compared to previous work. Our experiment demonstrates the successful integration of an on-chip nanoscale plasmonic component into a quantum random number generation setup. This may lead to new opportunities in compact and scalable quantum random number generation.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-16
# CLIPMasterPrintを用いたコントラスト言語画像事前学習モデルの構築

Fooling Contrastive Language-Image Pre-trained Models with CLIPMasterPrints ( http://arxiv.org/abs/2307.03798v3 )

ライセンス: Link先を確認
Matthias Freiberger, Peter Kun, Christian Igel, Anders Sundnes Løvlie, Sebastian Risi, (参考訳) Contrastive Language-Image Pre-training (CLIP)のような視覚的およびテキスト的データを活用するモデルは、人工知能の最近の進歩のバックボーンである。 本研究は,その汎用性にもかかわらず,このようなモデルが,マスタイメージを騙すような表現に対して脆弱であることを示す。 マスタイメージの摂食は、CLIPモデルの信頼性スコアを、かなりの数の広範囲のプロンプトに対して最大化することができるが、攻撃されたプロンプトとは認識できないか、無関係である。 このような画像の存在は、悪意あるアクターがCLIPで訓練された画像検索モデルに悪意を持って干渉するために、単一の画像が多くの異なるプロンプトを攻撃できるため、非常に小さな労力で使用できるため、問題となる。 ここでは,CLIP(CLIPMasterPrints)のマスタイメージを確率勾配勾配,投影勾配勾配,ブラックボックス最適化を用いてマイニングする方法を示す。 多くの一般的な敵攻撃とは対照的に、ブラックボックス最適化アプローチでは、モデルの重みがアクセスできない場合でもCLIPMasterPrintをマイニングすることができます。 マイニング画像の特性について検討し,少数の画像キャプションで訓練した画像が,より多くの意味的関連キャプションに一般化されることを見出した。 モデルのロバスト性を高め、CLIPMasterPrintsを自動的に検出し、脆弱なモデルの入力を正当化するためのアプローチを導入する。 最後に、CLIPMasterPrintsの脆弱性は、対照的に事前訓練されたマルチモーダルネットワークにおけるモダリティギャップと関連していることがわかった。 コードはhttps://github.com/matfrei/CLIPMasterPrintsで公開されている。

Models leveraging both visual and textual data such as Contrastive Language-Image Pre-training (CLIP), are the backbone of many recent advances in artificial intelligence. In this work, we show that despite their versatility, such models are vulnerable to what we refer to as fooling master images. Fooling master images are capable of maximizing the confidence score of a CLIP model for a significant number of widely varying prompts, while being either unrecognizable or unrelated to the attacked prompts for humans. The existence of such images is problematic as it could be used by bad actors to maliciously interfere with CLIP-trained image retrieval models in production with comparably small effort as a single image can attack many different prompts. We demonstrate how fooling master images for CLIP (CLIPMasterPrints) can be mined using stochastic gradient descent, projected gradient descent, or blackbox optimization. Contrary to many common adversarial attacks, the blackbox optimization approach allows us to mine CLIPMasterPrints even when the weights of the model are not accessible. We investigate the properties of the mined images, and find that images trained on a small number of image captions generalize to a much larger number of semantically related captions. We evaluate possible mitigation strategies, where we increase the robustness of the model and introduce an approach to automatically detect CLIPMasterPrints to sanitize the input of vulnerable models. Finally, we find that vulnerability to CLIPMasterPrints is related to a modality gap in contrastive pre-trained multi-modal networks. Code available at https://github.com/matfrei/CLIPMasterPrints.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-16
# Dual-Level Siamese Structure Networkによる半教師付きセマンティックセマンティックセグメンテーションの改善

Improving Semi-Supervised Semantic Segmentation with Dual-Level Siamese Structure Network ( http://arxiv.org/abs/2307.13938v2 )

ライセンス: Link先を確認
Zhibo Tain, Xiaolin Zhang, Peng Zhang, Kun Zhan, (参考訳) 半教師付きセマンティックセマンティックセグメンテーション(SSS)は、ラベル付きデータとラベルなしデータの両方を使用して、ラベル付きトレーニング例のコストを削減する重要なタスクである。 しかし、SSSアルゴリズムの有効性は、ラベルなしデータの可能性を完全に活用することの難しさによって制限されている。 これを解決するために,画素単位のコントラスト学習のための二重レベルシームス構造ネットワーク(DSSN)を提案する。 低レベル画像空間と高レベル特徴空間の両方における強力な拡張ビューを用いて、正の対を画素単位のコントラスト損失と整合させることにより、DSSNは、利用可能な未ラベルデータの利用を最大化するように設計されている。 さらに,クラス選択を行なわない,あるいはすべてのクラスに対して事前定義されたしきい値を適用しない,既存のメソッドの制限に対処する,弱強監督のための新しいクラス対応擬似ラベル選択戦略を導入する。 具体的には、各クラスの弱い視界の高信頼度予測を選択して、強い視界を監督する擬似ラベルを生成する。 この戦略は、クラス不均衡を考慮に入れ、長い尾のクラスのパフォーマンスを向上させることができる。 提案手法は, PASCAL VOC 2012とCityscapesの2つのデータセットに対して, 最先端の結果を得られた。 ソースコードはhttps://github.com/kunzhan/DSSN.comで入手できる。

Semi-supervised semantic segmentation (SSS) is an important task that utilizes both labeled and unlabeled data to reduce expenses on labeling training examples. However, the effectiveness of SSS algorithms is limited by the difficulty of fully exploiting the potential of unlabeled data. To address this, we propose a dual-level Siamese structure network (DSSN) for pixel-wise contrastive learning. By aligning positive pairs with a pixel-wise contrastive loss using strong augmented views in both low-level image space and high-level feature space, the proposed DSSN is designed to maximize the utilization of available unlabeled data. Additionally, we introduce a novel class-aware pseudo-label selection strategy for weak-to-strong supervision, which addresses the limitations of most existing methods that do not perform selection or apply a predefined threshold for all classes. Specifically, our strategy selects the top high-confidence prediction of the weak view for each class to generate pseudo labels that supervise the strong augmented views. This strategy is capable of taking into account the class imbalance and improving the performance of long-tailed classes. Our proposed method achieves state-of-the-art results on two datasets, PASCAL VOC 2012 and Cityscapes, outperforming other SSS algorithms by a significant margin. The source code is available at https://github.com/kunzhan/DSSN.
翻訳日:2024-04-18 19:50:03 公開日:2024-04-16
# 大規模言語モデルを用いたジェンダー特化機械翻訳

Gender-specific Machine Translation with Large Language Models ( http://arxiv.org/abs/2309.03175v2 )

ライセンス: Link先を確認
Eduardo Sánchez, Pierre Andrews, Pontus Stenetorp, Mikel Artetxe, Marta R. Costa-jussà, (参考訳) 機械翻訳(MT)システムは大幅に改善されているが、性バイアスなどの社会的バイアスを反映する翻訳は依然として一般的である。 デコーダのみのLarge Language Models (LLM) は、従来のエンコーダ-デコーダニューラルマシン変換(NMT)システムにわずかに遅れているにもかかわらず、MTの潜在的な可能性を示している。 しかし LLM にはユニークな利点があり、プロンプトを通じて出力の特性を制御する能力がある。 本研究では、この柔軟性を活用し、LLaMaのジェンダー特化翻訳能力を探究する。 以上の結果から,LLaMaは,現在最先端の多言語NMTシステムであるNLLBに匹敵する,翻訳精度と性別偏差を有する性特化翻訳を生成可能であることが示唆された。 さらに,LLaMaのジェンダー特化翻訳では,男女差の度合いが高くなるが,あいまいな文脈では一貫性が保たれている。 本研究は, LLMによる出力の制御可能性の例として, 性別別翻訳にLDMを使うことの可能性と課題について考察する。

While machine translation (MT) systems have seen significant improvements, it is still common for translations to reflect societal biases, such as gender bias. Decoder-only Large Language Models (LLMs) have demonstrated potential in MT, albeit with performance slightly lagging behind traditional encoder-decoder Neural Machine Translation (NMT) systems. However, LLMs offer a unique advantage: the ability to control the properties of the output through prompts. In this study, we leverage this flexibility to explore LLaMa's capability to produce gender-specific translations. Our results indicate that LLaMa can generate gender-specific translations with translation accuracy and gender bias comparable to NLLB, a state-of-the-art multilingual NMT system. Furthermore, our experiments reveal that LLaMa's gender-specific translations rely on coreference resolution to determine gender, showing higher gender variance in gender-ambiguous datasets but maintaining consistency in less ambiguous contexts. This research investigates the potential and challenges of using LLMs for gender-specific translations as an instance of the controllability of outputs offered by LLMs.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-16
# LLMとBoWによる授業支援の自動評価:グローバル予測と特定のフィードバックを結びつける

Automated Evaluation of Classroom Instructional Support with LLMs and BoWs: Connecting Global Predictions to Specific Feedback ( http://arxiv.org/abs/2310.01132v4 )

ライセンス: Link先を確認
Jacob Whitehill, Jennifer LoCasale-Crouch, (参考訳) 教師により具体的で頻繁で行動可能な授業フィードバックを提供することを目的として,広範言語モデル(LLM)を用いて,広く使用されている観察プロトコルであるCLLASS(CLassroom Assessment Scoring System)の「インストラクショナル・サポート」ドメインスコアを推定する方法について検討した。 我々は,メタのLlama2のゼロショットプロンプトと/または古典的なBag of Words(BoW)モデルを用いて,教師の発話(OpenAIのWhisperで自動的に書き起こされる)の個別発話を教育支援の有無で分類する機械学習アーキテクチャを設計する。 そして、これらの発話レベルの判断を15分間の観察セッションに集約し、グローバルなCLASSスコアを推定する。 幼児と幼稚園前教室の2つのCLASS符号化データセットを用いた実験から,(1) 提案手法を用いた自動CLASS指導支援推定精度(Pearson $R$から0.48$まで)が,人間間信頼性(最大$R=0.55$まで)に近づき,(2) LLMは一般にBoWよりも若干精度が高いことが示唆された。 最後に,教師が特定のCLASS次元と最も正あるいは負の相関関係を持つ発話について,教師に説明可能なフィードバックを提供するために,モデルの出力を発話レベルでどのように可視化するかを説明する。

With the aim to provide teachers with more specific, frequent, and actionable feedback about their teaching, we explore how Large Language Models (LLMs) can be used to estimate ``Instructional Support'' domain scores of the CLassroom Assessment Scoring System (CLASS), a widely used observation protocol. We design a machine learning architecture that uses either zero-shot prompting of Meta's Llama2, and/or a classic Bag of Words (BoW) model, to classify individual utterances of teachers' speech (transcribed automatically using OpenAI's Whisper) for the presence of Instructional Support. Then, these utterance-level judgments are aggregated over a 15-min observation session to estimate a global CLASS score. Experiments on two CLASS-coded datasets of toddler and pre-kindergarten classrooms indicate that (1) automatic CLASS Instructional Support estimation accuracy using the proposed method (Pearson $R$ up to $0.48$) approaches human inter-rater reliability (up to $R=0.55$); (2) LLMs generally yield slightly greater accuracy than BoW for this task, though the best models often combined features extracted from both LLM and BoW; and (3) for classifying individual utterances, there is still room for improvement of automated methods compared to human-level judgments. Finally, (4) we illustrate how the model's outputs can be visualized at the utterance level to provide teachers with explainable feedback on which utterances were most positively or negatively correlated with specific CLASS dimensions.
翻訳日:2024-04-18 19:40:10 公開日:2024-04-16
# GenTKG: 大規模言語モデルを用いた時間的知識グラフの生成予測

GenTKG: Generative Forecasting on Temporal Knowledge Graph with Large Language Models ( http://arxiv.org/abs/2310.07793v5 )

ライセンス: Link先を確認
Ruotong Liao, Xu Jia, Yangzhe Li, Yunpu Ma, Volker Tresp, (参考訳) 大規模言語モデル(LLM)の急速な進歩は、従来の埋め込み型およびルールベースの手法が支配的な時間的知識グラフ(tKG)領域への関心を喚起している。 事前学習したLLMが構造化された時間的関係データを理解でき、時間的関係予測の基礎モデルとして置き換えられるかどうかには疑問が残る。 したがって、時間的知識予測を生成環境に導入する。 しかし、複雑な時間グラフデータ構造とLLMが扱える逐次自然表現との間の巨大な亀裂や、tKGの巨大なデータサイズとLLMを微調整する重い計算コストとの間には課題が生じる。 これらの課題に対処するために,時間的論理ルールに基づく探索戦略と,これらの課題を解決するためにパラメータ効率の少ない命令チューニングを併用した,GenTKGという新たな検索拡張生成フレームワークを提案する。 大規模な実験により、GenTKGは、非常に限られたトレーニングデータから16サンプルまで、計算資源の少ない時間的関係予測法よりも優れた性能を示した。 GenTKGはまた、再トレーニングなしで、目に見えないデータセットのパフォーマンスで優れたクロスドメインの一般化性と、同じデータセット内の時間分割に関わらず、ドメイン内の一般化性を強調している。 本研究は, tKG領域におけるLLMの潜在可能性を明らかにし, tKGの生成予測のための新たなフロンティアを開拓する。 コードとデータは、https://github.com/mayhugotong/GenTKG.comで公開されている。

The rapid advancements in large language models (LLMs) have ignited interest in the temporal knowledge graph (tKG) domain, where conventional embedding-based and rule-based methods dominate. The question remains open of whether pre-trained LLMs can understand structured temporal relational data and replace them as the foundation model for temporal relational forecasting. Therefore, we bring temporal knowledge forecasting into the generative setting. However, challenges occur in the huge chasms between complex temporal graph data structure and sequential natural expressions LLMs can handle, and between the enormous data sizes of tKGs and heavy computation costs of finetuning LLMs. To address these challenges, we propose a novel retrieval-augmented generation framework named GenTKG combining a temporal logical rule-based retrieval strategy and few-shot parameter-efficient instruction tuning to solve the above challenges, respectively. Extensive experiments have shown that GenTKG outperforms conventional methods of temporal relational forecasting with low computation resources using extremely limited training data as few as 16 samples. GenTKG also highlights remarkable cross-domain generalizability with outperforming performance on unseen datasets without re-training, and in-domain generalizability regardless of time split in the same dataset. Our work reveals the huge potential of LLMs in the tKG domain and opens a new frontier for generative forecasting on tKGs. Code and data are released here: https://github.com/mayhugotong/GenTKG.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-16
# 大規模言語モデルにおける論理的パズル解法の評価:マインズウィーパーケーススタディからの考察

Assessing Logical Puzzle Solving in Large Language Models: Insights from a Minesweeper Case Study ( http://arxiv.org/abs/2311.07387v2 )

ライセンス: Link先を確認
Yinghao Li, Haorui Wang, Chao Zhang, (参考訳) 大規模言語モデル(LLM)は、言語理解において顕著な熟練度を示し、タスク固有の微調整や迅速な工学を通して、様々な現実世界のタスクにうまく適用されている。 これらの進歩にもかかわらず、LCMは基本的に推論と計画の能力があるのか、それともトレーニングデータから情報をリコールと合成に主に依存しているかは、未解決のままである。 我々の研究では、新しいタスクであるMinesweeperを導入しました。具体的には、LLMになじみのないフォーマットで設計され、トレーニングデータセットが欠如しています。 このタスクは、隣接するオープンセルが提供する数値的な手がかりに基づいて、LLMが鉱山の位置を特定することを課題とする。 このタスクを成功させるためには、各細胞の状態を理解し、手掛かりと鉱山の間の空間的関係を識別し、細胞の配列から引き出された論理的推論に基づいて行動を強化する必要がある。 我々の実験は、先進的なGPT-4モデルによる試行を含むもので、LLMは、この課題に必要な基礎的能力を持っているが、Minesweeperの解決に必要な一貫性と多段階の論理的推論プロセスにこれらを統合するのに苦労していることを示している。 これらの知見は、LLMにおける推論能力の性質を理解するためのさらなる研究の必要性を強調し、より洗練されたAI推論と計画モデルへの道を探る必要性を強調している。

Large Language Models (LLMs) have shown remarkable proficiency in language understanding and have been successfully applied to a variety of real-world tasks through task-specific fine-tuning or prompt engineering. Despite these advancements, it remains an open question whether LLMs are fundamentally capable of reasoning and planning, or if they primarily rely on recalling and synthesizing information from their training data. In our research, we introduce a novel task -- Minesweeper -- specifically designed in a format unfamiliar to LLMs and absent from their training datasets. This task challenges LLMs to identify the locations of mines based on numerical clues provided by adjacent opened cells. Successfully completing this task requires an understanding of each cell's state, discerning spatial relationships between the clues and mines, and strategizing actions based on logical deductions drawn from the arrangement of the cells. Our experiments, including trials with the advanced GPT-4 model, indicate that while LLMs possess the foundational abilities required for this task, they struggle to integrate these into a coherent, multi-step logical reasoning process needed to solve Minesweeper. These findings highlight the need for further research to understand the nature of reasoning capabilities in LLMs under similar circumstances, and to explore pathways towards more sophisticated AI reasoning and planning models.
翻訳日:2024-04-18 19:30:24 公開日:2024-04-16
# 効率的な量子並列反復定理とその応用

An efficient quantum parallel repetition theorem and applications ( http://arxiv.org/abs/2311.10681v2 )

ライセンス: Link先を確認
John Bostanci, Luowen Qian, Nicholas Spooner, Henry Yuen, (参考訳) 我々は,効率の良い挑戦者と効率のよい敵対者との間の3ドルの計算セキュアな量子対話プロトコルに対して,厳密な並列反復定理を証明した。 また,4ドル(約4,400円)のセキュアなプロトコルのセキュリティは,並列反復では一般的に低下しないという仮説を実証する。 これらはベルレ、インパグリアッツォ、ナオル(BIN97)の古典的な成果を反映している。 最後に、全ての量子論証系が等価な3$メッセージ論証系に総称的にコンパイル可能であることを証明し、量子証明系 [KW00, KKMV07] の変換を反映する。 直近の応用として、量子ビットコミットメントスキームの硬度増幅定理(Yan (Yan [Yan22]))、EFIペア(Brakerski, Canetti, and Qian (BCQ23]))、公開鍵量子マネースキーム(Aaronson and Christiano (AC13]))、および量子ゼロ知識議論システムに対する硬度増幅定理の導出方法を示す。 また、量子述語に対する XOR レムマ [Yao82] をcorollary として導出する。

We prove a tight parallel repetition theorem for $3$-message computationally-secure quantum interactive protocols between an efficient challenger and an efficient adversary. We also prove under plausible assumptions that the security of $4$-message computationally secure protocols does not generally decrease under parallel repetition. These mirror the classical results of Bellare, Impagliazzo, and Naor [BIN97]. Finally, we prove that all quantum argument systems can be generically compiled to an equivalent $3$-message argument system, mirroring the transformation for quantum proof systems [KW00, KKMV07]. As immediate applications, we show how to derive hardness amplification theorems for quantum bit commitment schemes (answering a question of Yan [Yan22]), EFI pairs (answering a question of Brakerski, Canetti, and Qian [BCQ23]), public-key quantum money schemes (answering a question of Aaronson and Christiano [AC13]), and quantum zero-knowledge argument systems. We also derive an XOR lemma [Yao82] for quantum predicates as a corollary.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-16
# 自己教師付きデータ選択と合成によるオンデバイス大規模言語モデルのパーソナライズ

Enabling On-Device Large Language Model Personalization with Self-Supervised Data Selection and Synthesis ( http://arxiv.org/abs/2311.12275v4 )

ライセンス: Link先を確認
Ruiyang Qin, Jun Xia, Zhenge Jia, Meng Jiang, Ahmed Abbasi, Peipei Zhou, Jingtong Hu, Yiyu Shi, (参考訳) 大規模言語モデル(LLM)がエッジデバイスにデプロイされた後、ユーザ生成会話データから学習し、ユーザ固有のパーソナライズされた応答をリアルタイムで生成することが望ましい。 しかし、ユーザ生成データは通常機密情報とプライベート情報を含んでいるため、アノテーションのためにクラウドにデータをアップロードすることは、禁止されない場合は推奨されない。 アノテーションをローカルに取得するには,ユーザの好みの回答を直接求めればよいが,ユーザエクスペリエンスに影響を与えないように,このようなアノテーションを疎結合にする必要がある。 加えて、エッジデバイスのストレージは通常、完全なユーザ生成データによる大規模な微調整を可能にするために制限されている。 少ないアノテーションと限られたオンデバイスストレージを考慮して、オンデバイス LLM のパーソナライズを有効にする方法は未解決のままである。 本稿では,オンライン上で最も代表的なデータを自己管理的に選択・保存するための新しいフレームワークを提案する。 このようなデータはメモリフットプリントが小さく、ユーザアノテーションの頻繁なリクエストでさらなる微調整が可能になる。 微調整品質を高めるため、LLMを用いて複数の意味的に類似した質問文と期待応答を生成する。 実験の結果,提案フレームワークは,バニラベースラインと比較して,ユーザ固有のコンテンツ生成能力(精度)と微調整速度(性能)に優れていた。 私たちの知る限りでは、これが初めてのオンデバイスLDMパーソナライズフレームワークです。

After a large language model (LLM) is deployed on edge devices, it is desirable for these devices to learn from user-generated conversation data to generate user-specific and personalized responses in real-time. However, user-generated data usually contains sensitive and private information, and uploading such data to the cloud for annotation is not preferred if not prohibited. While it is possible to obtain annotation locally by directly asking users to provide preferred responses, such annotations have to be sparse to not affect user experience. In addition, the storage of edge devices is usually too limited to enable large-scale fine-tuning with full user-generated data. It remains an open question how to enable on-device LLM personalization, considering sparse annotation and limited on-device storage. In this paper, we propose a novel framework to select and store the most representative data online in a self-supervised way. Such data has a small memory footprint and allows infrequent requests of user annotations for further fine-tuning. To enhance fine-tuning quality, multiple semantically similar pairs of question texts and expected responses are generated using the LLM. Our experiments show that the proposed framework achieves the best user-specific content-generating capability (accuracy) and fine-tuning speed (performance) compared with vanilla baselines. To the best of our knowledge, this is the very first on-device LLM personalization framework.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-16
# ScribbleGen: 生成データ拡張により,スクリブル管理セマンティックセマンティックセグメンテーションが改善される

ScribbleGen: Generative Data Augmentation Improves Scribble-supervised Semantic Segmentation ( http://arxiv.org/abs/2311.17121v2 )

ライセンス: Link先を確認
Jacob Schnell, Jieke Wang, Lu Qi, Vincent Tao Hu, Meng Tang, (参考訳) 拡散モデルのような生成モデルの最近の進歩により、高品質な合成画像が広くアクセスできるようになった。 以前の研究では、合成画像のトレーニングは、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、多くの知覚タスクを改善することが示されている。 我々は,スクリブル教師付きセマンティックセグメンテーションのための生成データ拡張を初めて検討した。 セマンティックスクリブルに条件付き制御ネット拡散モデルを利用して高品質なトレーニングデータを生成する,生成データ拡張手法であるScribbleGenを提案する。 しかし、生成データ拡張の素早い実装は、その改善よりも下流セグメンタの性能を必然的に損なう可能性がある。 分類器のない拡散誘導を利用して、クラス一貫性を強制し、エンコード比を導入し、データリアリズムのためにデータの多様性をトレードオフする。 指導尺度と符号化率を用いて、高品質なトレーニング画像のスペクトルを生成することができる。 本稿では,複数の拡張スキームを提案し,これらのスキームがモデル性能,特に低データ方式において大きな影響を及ぼすことを示した。 さらに,本フレームワークは,スクリブル教師付きセグメンテーションと完全教師付きセグメンテーションのギャップを小さくする。 また、我々のフレームワークは、完全に教師されたセグメンテーションを超越しても、小さなデータセットでのセグメンテーション性能を著しく改善することを示した。 コードはhttps://github.com/mengtang-lab/scribblegen.comで公開されている。

Recent advances in generative models, such as diffusion models, have made generating high-quality synthetic images widely accessible. Prior works have shown that training on synthetic images improves many perception tasks, such as image classification, object detection, and semantic segmentation. We are the first to explore generative data augmentations for scribble-supervised semantic segmentation. We propose ScribbleGen, a generative data augmentation method that leverages a ControlNet diffusion model conditioned on semantic scribbles to produce high-quality training data. However, naive implementations of generative data augmentations may inadvertently harm the performance of the downstream segmentor rather than improve it. We leverage classifier-free diffusion guidance to enforce class consistency and introduce encode ratios to trade off data diversity for data realism. Using the guidance scale and encode ratio, we can generate a spectrum of high-quality training images. We propose multiple augmentation schemes and find that these schemes significantly impact model performance, especially in the low-data regime. Our framework further reduces the gap between the performance of scribble-supervised segmentation and that of fully-supervised segmentation. We also show that our framework significantly improves segmentation performance on small datasets, even surpassing fully-supervised segmentation. The code is available at https://github.com/mengtang-lab/scribblegen.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-16
# 拡散アバター(Diffusion Avatars):高忠実度3次元頭部アバターの遠心拡散

DiffusionAvatars: Deferred Diffusion for High-fidelity 3D Head Avatars ( http://arxiv.org/abs/2311.18635v2 )

ライセンス: Link先を確認
Tobias Kirschstein, Simon Giebenhain, Matthias Nießner, (参考訳) DiffusionAvatarsは人の高忠実度3Dヘッドアバターを合成し、ポーズと表情の両方を直感的に制御する。 汎用的な2Dプリエントを利用して、表情の魅力的な画像を生成する拡散型ニューラルレンダラーを提案する。 表現と頭部ポーズの粗い誘導のために,ターゲット視点からニューラルパラメトリックヘッドモデル(NPHM)を描画する。 さらに,複雑な表情のモデリングを強化するために,NPHMから得られた表現コードに直接ディフュージョンアバターを付加する。 最後に,NPHMの標準空間におけるTriPlaneルックアップを通じて,学習可能な空間的特徴を頭部に付与する。 我々は、RGBビデオとそれに対応するNPHMメッシュ上でDiffusionAvatarsをトレーニングし、自己再現とアニメーションの両方のシナリオで得られたアバターをテストする。 我々の実験は、DiffusionAvatarsが、人の新しいポーズや表現のために時間的に一貫した視覚的に魅力的なビデオを生成し、既存のアプローチよりも優れていることを示した。

DiffusionAvatars synthesizes a high-fidelity 3D head avatar of a person, offering intuitive control over both pose and expression. We propose a diffusion-based neural renderer that leverages generic 2D priors to produce compelling images of faces. For coarse guidance of the expression and head pose, we render a neural parametric head model (NPHM) from the target viewpoint, which acts as a proxy geometry of the person. Additionally, to enhance the modeling of intricate facial expressions, we condition DiffusionAvatars directly on the expression codes obtained from NPHM via cross-attention. Finally, to synthesize consistent surface details across different viewpoints and expressions, we rig learnable spatial features to the head's surface via TriPlane lookup in NPHM's canonical space. We train DiffusionAvatars on RGB videos and corresponding fitted NPHM meshes of a person and test the obtained avatars in both self-reenactment and animation scenarios. Our experiments demonstrate that DiffusionAvatars generates temporally consistent and visually appealing videos for novel poses and expressions of a person, outperforming existing approaches.
翻訳日:2024-04-18 19:20:39 公開日:2024-04-16
# LLMのプロンプト技術に関する調査研究

A Survey on Prompting Techniques in LLMs ( http://arxiv.org/abs/2312.03740v2 )

ライセンス: Link先を確認
Prabin Bhandari, (参考訳) 自己回帰型大規模言語モデルは自然言語処理のランドスケープに変化をもたらした。 プレトレインとプロンプトのパラダイムは、多くの下流NLPタスクに対する事前トレーニングと微調整の従来のアプローチに取って代わられた。 この変化は、LLMと革新的なプロンプト技術によって起こりうる。 LLMは、膨大なパラメータとトレーニング済みの巨大なデータセットのために、さまざまなダウンストリームタスクに対して大きな期待を示しています。 しかし、その潜在能力を十分に実現するためには、その成果を望ましい結果へと導く必要がある。 LLMを目的の出力に導くための特定の入力や命令が提供されるプロンプトは、この目標を達成するためのツールとなっている。 本稿では,LLMのパワーをフル活用するための様々なプロンプト技術について論じる。 本研究は,既存の文献の分類手法について紹介し,この分類法に基づく簡潔な調査を行う。 さらに,今後の研究の方向性として期待できる自己回帰型LSMを推し進める領域において,いくつかの未解決問題を明らかにした。

Autoregressive Large Language Models have transformed the landscape of Natural Language Processing. Pre-train and prompt paradigm has replaced the conventional approach of pre-training and fine-tuning for many downstream NLP tasks. This shift has been possible largely due to LLMs and innovative prompting techniques. LLMs have shown great promise for a variety of downstream tasks owing to their vast parameters and huge datasets that they are pre-trained on. However, in order to fully realize their potential, their outputs must be guided towards the desired outcomes. Prompting, in which a specific input or instruction is provided to guide the LLMs toward the intended output, has become a tool for achieving this goal. In this paper, we discuss the various prompting techniques that have been applied to fully harness the power of LLMs. We present a taxonomy of existing literature on prompting techniques and provide a concise survey based on this taxonomy. Further, we identify some open problems in the realm of prompting in autoregressive LLMs which could serve as a direction for future research.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-16
# スケールダウンからスケールアップ: OpenAI の LLM をオープンソース SLM に置き換えたコストベネフィット分析

Scaling Down to Scale Up: A Cost-Benefit Analysis of Replacing OpenAI's LLM with Open Source SLMs in Production ( http://arxiv.org/abs/2312.14972v3 )

ライセンス: Link先を確認
Chandra Irugalbandara, Ashish Mahendra, Roland Daynauth, Tharuka Kasthuri Arachchige, Jayanaka Dantanarayana, Krisztian Flautner, Lingjia Tang, Yiping Kang, Jason Mars, (参考訳) 多くの企業は、OpenAIのGPT-4のようなサービスとして提供される大きな言語モデル(LLM)を使用して、AI対応製品エクスペリエンスを作成している。 使いやすさとソリューションの短縮によるメリットに加えて、プロプライエタリなサービスへの依存は、モデル制御、パフォーマンスの信頼性、アップタイム予測可能性、コストに欠点があります。 同時に、オープンソースのスモールランゲージモデル(SLM)が市販されている。 しかし、既存の機能を置き換えるための準備が整っていないため、これらのSLMを体系的に評価する体系的なアプローチは、容易には利用できない。 本稿では,現代のオープンソース SLM の体系的評価手法と,実世界の製品機能として独自 LLM を代替する際のトレードオフについて述べる。 我々は、任意のSLMを用いて製品機能の定量的かつ質的なテストを可能にするオープンソースの自動分析ツールであるSLaMを設計した。 SLaMを用いて,OpenAI GPT-4 APIを用いた既存の顧客向け実装と比較して,現代のSLMの品質と性能について検討した。 9種類のSLMと29種類のSLMに対して,GPT-4と比較すると,SLMは競争結果,性能の大幅な改善,コストの5倍~29倍の削減を実現している。

Many companies use large language models (LLMs) offered as a service, like OpenAI's GPT-4, to create AI-enabled product experiences. Along with the benefits of ease-of-use and shortened time-to-solution, this reliance on proprietary services has downsides in model control, performance reliability, uptime predictability, and cost. At the same time, a flurry of open-source small language models (SLMs) has been made available for commercial use. However, their readiness to replace existing capabilities remains unclear, and a systematic approach to holistically evaluate these SLMs is not readily available. This paper presents a systematic evaluation methodology and a characterization of modern open-source SLMs and their trade-offs when replacing proprietary LLMs for a real-world product feature. We have designed SLaM, an open-source automated analysis tool that enables the quantitative and qualitative testing of product features utilizing arbitrary SLMs. Using SLaM, we examine the quality and performance characteristics of modern SLMs relative to an existing customer-facing implementation using the OpenAI GPT-4 API. Across 9 SLMs and their 29 variants, we observe that SLMs provide competitive results, significant performance consistency improvements, and a cost reduction of 5x~29x when compared to GPT-4.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-16
# IsamasRed: RedditのイスラエルとHamasの対立に関する議論を追跡する公開データセット

IsamasRed: A Public Dataset Tracking Reddit Discussions on Israel-Hamas Conflict ( http://arxiv.org/abs/2401.08202v2 )

ライセンス: Link先を確認
Kai Chen, Zihao He, Keith Burghardt, Jingxin Zhang, Kristina Lerman, (参考訳) 2023年10月7日のハマス攻撃以降、イスラエルとパレスチナの紛争は激化し、世界的な注目を集めた。 この対立に関する大衆の談話を理解するために、2023年8月から2023年11月までの間に、40万近い会話と、Redditからの800万以上のコメントを精巧にコンパイルしたデータセットIsamasRedを紹介します。 本稿では,大規模な言語モデルを利用して,関連するキーワードを効果的に識別し,包括的データ収集を保証する,革新的なキーワード抽出フレームワークを提案する。 このデータセットに関する最初の分析では、話題、論争、感情的、道徳的な言語傾向を時間とともに調査し、感情的に荷電され、複雑な言論の性質を強調した。 このデータセットは、オンライン議論の理解を深めることを目的としており、デジタル空間におけるイデオロギー、感情、コミュニティエンゲージメントの間の複雑な相互作用に光を当てている。

The conflict between Israel and Palestinians significantly escalated after the October 7, 2023 Hamas attack, capturing global attention. To understand the public discourse on this conflict, we present a meticulously compiled dataset-IsamasRed-comprising nearly 400,000 conversations and over 8 million comments from Reddit, spanning from August 2023 to November 2023. We introduce an innovative keyword extraction framework leveraging a large language model to effectively identify pertinent keywords, ensuring a comprehensive data collection. Our initial analysis on the dataset, examining topics, controversy, emotional and moral language trends over time, highlights the emotionally charged and complex nature of the discourse. This dataset aims to enrich the understanding of online discussions, shedding light on the complex interplay between ideology, sentiment, and community engagement in digital spaces.
翻訳日:2024-04-18 19:10:55 公開日:2024-04-16
# 思考モデルのニューラル言語

Neural Language of Thought Models ( http://arxiv.org/abs/2402.01203v2 )

ライセンス: Link先を確認
Yi-Fu Wu, Minseung Lee, Sungjin Ahn, (参考訳) 思考の言語(Language of Thought hypothesis)は、人間の認知が心的表現の構造化された言語のようなシステムで機能していることを示唆している。 ニューラルネットワークモデルは、自然に言語データに内在的かつ明示的に表される構成構造から恩恵を受けることができるが、画像のような非言語的な一般的な観察からそのような表現を学ぶことは依然として困難である。 本研究では、LoTHにインスパイアされた表現と生成の教師なし学習のための新しいアプローチであるNeural Language of Thought Model (NLoTM)を紹介する。 NLoTMは、(1)オブジェクトとその特性に整合した階層的で構成可能な離散表現を学習するSemantic Vector-Quantized Variational Autoencoder、(2)Autoregressive LoT Prior、(2)セマンティック概念トークンを合成的に生成し、基礎となるデータ分布をキャプチャする自動回帰変換器である。 複数の2次元および3次元画像データセット上でNLoTMを評価し、パッチベースのVQ-VAEや連続オブジェクト中心表現と比較して、下流タスク、分布外一般化、画像生成品質において優れた性能を示す。 我々の研究は、LoTのような表現を開発することによって、より人間的な理解を示すニューラルネットワークを作成するための重要なステップを示し、認知科学と機械学習の交差点に関する洞察を提供する。

The Language of Thought Hypothesis suggests that human cognition operates on a structured, language-like system of mental representations. While neural language models can naturally benefit from the compositional structure inherently and explicitly expressed in language data, learning such representations from non-linguistic general observations, like images, remains a challenge. In this work, we introduce the Neural Language of Thought Model (NLoTM), a novel approach for unsupervised learning of LoTH-inspired representation and generation. NLoTM comprises two key components: (1) the Semantic Vector-Quantized Variational Autoencoder, which learns hierarchical, composable discrete representations aligned with objects and their properties, and (2) the Autoregressive LoT Prior, an autoregressive transformer that learns to generate semantic concept tokens compositionally, capturing the underlying data distribution. We evaluate NLoTM on several 2D and 3D image datasets, demonstrating superior performance in downstream tasks, out-of-distribution generalization, and image generation quality compared to patch-based VQ-VAE and continuous object-centric representations. Our work presents a significant step towards creating neural networks exhibiting more human-like understanding by developing LoT-like representations and offers insights into the intersection of cognitive science and machine learning.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-16
# リアルタイムセマンティックセグメンテーションのためのマルチレベル特徴集合と再帰アライメントネットワーク

Multi-Level Feature Aggregation and Recursive Alignment Network for Real-Time Semantic Segmentation ( http://arxiv.org/abs/2402.02286v2 )

ライセンス: Link先を確認
Yanhua Zhang, Ke Zhang, Jingyu Wang, Yulin Wu, Wuwei Wang, (参考訳) リアルタイムセマンティックセグメンテーションは、現実世界のアプリケーションにとって重要な研究である。 しかし、多くの手法は計算の複雑さとモデルサイズを減らすことに特に重点を置いており、精度を犠牲にしている。 この問題に対処するために,セマンティックセグメンテーションタスク用にカスタマイズされた並列推論ネットワークを提案する。 実時間速度を確保するために浅いバックボーンを使用し、モデル容量の削減と精度の向上のために3つのコアコンポーネントを提案する。 具体的には、まず、エンコーダから各スケールまでのマルチレベル特徴を集約し、その後の空間的アライメントとそれに対応するネットワーク内推論のための階層的な手がかりを提供する、デュアルピラミダルパスアーキテクチャ(Multi-level Feature Aggregation Module, MFAM)を設計する。 次に,フローベースアライメントモジュールと再帰的アライメントアーキテクチャを組み合わせることで,マルチスケール特徴写像間の空間的アライメントの精度を,直列アライメント法の半分の計算量で向上させることにより,再帰的アライメントモジュール(RAM)を構築する。 最後に,アダプティブ・スコア・フュージョン・モジュール (ASFM) を用いて,アダプティブ・スコア・フュージョン・モジュール (ASFM) を用いて,アダプティブ・スコア・スコア・フュージョン・モジュール (ASFM) を用いて,アダプティブ・スコア・スコア・フュージョン・モジュール (ASFM) とアダプティブ・スコア・スコア・モジュール (ASFM) を用いて,アダプティブ・スコア・アダプティブ・スコア・アダプティブ・スコア・フュージョン・モジュール (ASFM) を用いて,アダプティブ・スコア・スコアを複数スケールのオブジェクトに最適化する。 我々のフレームワークは、CityscapesとCamVidデータセットの最先端のリアルタイム手法よりも、速度と精度のバランスが良くなっている。 我々はまた、モチベーションとアーキテクチャ設計に関する洞察を得るために、体系的アブレーション研究も行った。 コードはhttps://github.com/Yanhua-Zhang/MFARANet.comで入手できる。

Real-time semantic segmentation is a crucial research for real-world applications. However, many methods lay particular emphasis on reducing the computational complexity and model size, while largely sacrificing the accuracy. To tackle this problem, we propose a parallel inference network customized for semantic segmentation tasks to achieve a good trade-off between speed and accuracy. We employ a shallow backbone to ensure real-time speed, and propose three core components to compensate for the reduced model capacity to improve accuracy. Specifically, we first design a dual-pyramidal path architecture (Multi-level Feature Aggregation Module, MFAM) to aggregate multi-level features from the encoder to each scale, providing hierarchical clues for subsequent spatial alignment and corresponding in-network inference. Then, we build Recursive Alignment Module (RAM) by combining the flow-based alignment module with recursive upsampling architecture for accurate spatial alignment between multi-scale feature maps with half the computational complexity of the straightforward alignment method. Finally, we perform independent parallel inference on the aligned features to obtain multi-scale scores, and adaptively fuse them through an attention-based Adaptive Scores Fusion Module (ASFM) so that the final prediction can favor objects of multiple scales. Our framework shows a better balance between speed and accuracy than state-of-the-art real-time methods on Cityscapes and CamVid datasets. We also conducted systematic ablation studies to gain insight into our motivation and architectural design. Code is available at: https://github.com/Yanhua-Zhang/MFARANet.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-16
# マルチステップタスク(PROMST):人間のフィードバックと優先度調整の統合

PRompt Optimization in Multi-Step Tasks (PROMST): Integrating Human Feedback and Preference Alignment ( http://arxiv.org/abs/2402.08702v2 )

ライセンス: Link先を確認
Yongchao Chen, Jacob Arkin, Yilun Hao, Yang Zhang, Nicholas Roy, Chuchu Fan, (参考訳) Prompt最適化は、与えられたタスクに対して、大きな言語モデル(LLM)の最良のプロンプトを見つけることを目的としている。 LLMはシングルステップタスクのプロンプト候補の発見と改善に成功している。 しかし, エージェントの現実的なタスクは多段階であり, 1) プロンプト内容がより広範かつ複雑になり, LLM がエラー分析を困難にすること,(2) 個別のステップの影響を評価することが困難であること,(3) 異なる人がタスク実行に関して様々な好みを持っていること,など,新たな課題がもたらされる。 人間はプロンプトの最適化に苦労するが、LLM出力に関するフィードバックを提供するのに長けており、人間設計のフィードバックルールを組み込んだ新しいLCM駆動離散プロンプト最適化フレームワークを導入し、改善のための直接提案を自動的に提供する。 また,プロンプト候補から効率的にサンプリングするために,プロンプト性能を予測できる学習ヒューリスティックモデルも使用しています。 このアプローチは、人間工学的なプロンプトと、11の代表的なマルチステップタスク(それぞれ5つのLLM上での現在のベストメソッドに対する平均10.6%-29.3%の改善)にまたがるいくつかのプロンプト最適化手法の両方を大きく上回っている。 さらに、タスクのスコア関数は、個人の好みに合わせて変更可能であることを示す。 LLM駆動型マルチステップタスクの自動プロンプト最適化のベンチマークとして機能すると考えています。

Prompt optimization aims to find the best prompt to a large language model (LLM) for a given task. LLMs have been successfully used to help find and improve prompt candidates for single-step tasks. However, realistic tasks for agents are multi-step and introduce new challenges: (1) Prompt content is likely to be more extensive and complex, making it more difficult for LLMs to analyze errors, (2) the impact of an individual step is difficult to evaluate, and (3) different people may have varied preferences about task execution. While humans struggle to optimize prompts, they are good at providing feedback about LLM outputs; we therefore introduce a new LLM-driven discrete prompt optimization framework that incorporates human-designed feedback rules to automatically offer direct suggestions for improvement. We also use an extra learned heuristic model that predicts prompt performance to efficiently sample from prompt candidates. This approach significantly outperforms both human-engineered prompts and several other prompt optimization methods across 11 representative multi-step tasks (an average 10.6%-29.3% improvement to current best methods on five LLMs respectively). We further show that the score function for tasks can be modified to better align with individual preferences. We believe our work can serve as a benchmark for automatic prompt optimization for LLM-driven multi-step tasks.
翻訳日:2024-04-18 19:01:11 公開日:2024-04-16
# Retrieval-Augmented Generation:Dense Passage Retrieval Retrieving?

Retrieval-Augmented Generation: Is Dense Passage Retrieval Retrieving? ( http://arxiv.org/abs/2402.11035v2 )

ライセンス: Link先を確認
Benjamin Reichman, Larry Heck, (参考訳) DPRは、大規模言語モデル(LLM)の性能向上のための検索拡張生成(RAG)パラダイムの第一歩である。 DPRファインチューニングネットワークは、クエリと関連するテキストデータ間の埋め込みのアライメントを強化する。 DPRの微調整に関する深い理解は、このアプローチの潜在能力を根本から解き放つために必要である。 本研究では,探索,層活性化解析,モデル編集を組み合わせたDPR学習モデルについて検討する。 実験の結果、DPRトレーニングは、ネットワーク内の知識の格納方法を分散化し、同一情報に対する複数のアクセス経路を生成することがわかった。 事前訓練されたモデルの内部知識は、検索モデルが取得できるものの境界である。 これらの知見は,(1)DPRトレーニングプロセスがより分散化できるように,さらに多くの知識に公開され,(2)事実を分散化された表現として注入し,(3)検索プロセスに知識の不確実性を取り入れ,(4)内部モデル知識を直接知識ベースにマッピングする,という可能性を示している。

Dense passage retrieval (DPR) is the first step in the retrieval augmented generation (RAG) paradigm for improving the performance of large language models (LLM). DPR fine-tunes pre-trained networks to enhance the alignment of the embeddings between queries and relevant textual data. A deeper understanding of DPR fine-tuning will be required to fundamentally unlock the full potential of this approach. In this work, we explore DPR-trained models mechanistically by using a combination of probing, layer activation analysis, and model editing. Our experiments show that DPR training decentralizes how knowledge is stored in the network, creating multiple access pathways to the same information. We also uncover a limitation in this training style: the internal knowledge of the pre-trained model bounds what the retrieval model can retrieve. These findings suggest a few possible directions for dense retrieval: (1) expose the DPR training process to more knowledge so more can be decentralized, (2) inject facts as decentralized representations, (3) model and incorporate knowledge uncertainty in the retrieval process, and (4) directly map internal model knowledge to a knowledge base.
翻訳日:2024-04-18 18:51:21 公開日:2024-04-16
# JMLR: 推論と専門的質問応答能力向上のための共同医療LLMと検索訓練

JMLR: Joint Medical LLM and Retrieval Training for Enhancing Reasoning and Professional Question Answering Capability ( http://arxiv.org/abs/2402.17887v3 )

ライセンス: Link先を確認
Junda Wang, Zhichao Yang, Zonghai Yao, Hong Yu, (参考訳) LLM(Large Language Models)は、医学知識の獲得と質問応答において顕著な可能性を実証している。 しかし、LLMは、ドメイン固有の事前訓練であっても、幻覚を起こし、事実的に誤った結果をもたらす可能性がある。 これまでは、検索拡張生成(RAG)は幻覚への対処に限られた成功を収めてきた。 検索モデルがLLMと別々に訓練されたRAGの従来の手法とは異なり, 微調整期間中にJMLR(JMLR: Jointly Train LLM and Information Retrieval (IR))を導入している。 シンクロナイズドトレーニング機構は、JMLRが臨床ガイドラインを検索し、医療知識を活用して疑問に答える能力を高め、計算資源の需要を減らす。 我々は,JMLRを重要な医療質問応答アプリケーションとして評価した。 実験の結果,JMLR-13B (70.5%) は従来の事前学習および微調整型メディトロン-70B (68.9%) と,RAG (54.9%) を用いたRAG (54.9%) のLlama2-13Bを用いて,従来の最先端オープンソースモデルよりも優れていた。 JMLR-13B(148GPU時間)もMeditron-70B(42630GPU時間)よりも高速にトレーニングできる。 本研究を通じて,医療用知識向上ツールを新たに提供し,医療質問応答システムにIRとLLMトレーニングを統合する可能性を実証した。

Large Language Models (LLMs) have demonstrated a remarkable potential in medical knowledge acquisition and question-answering. However, LLMs can potentially hallucinate and yield factually incorrect outcomes, even with domain-specific pretraining. Previously, retrieval augmented generation (RAG) has limited success in addressing hallucinations. Unlike previous methods in RAG where the retrieval model was trained separately from the LLM, we introduce JMLR (for Jointly trains LLM and information Retrieval (IR)) during the fine-tuning phase. The synchronized training mechanism enhances JMLR's ability to retrieve clinical guidelines and leverage medical knowledge to reason and answer questions and reduces the demand for computational resources. We evaluated JMLR on the important medical question answering application. Our experimental results demonstrate that JMLR-13B (70.5%) outperforms a previous state-of-the-art open-source model using conventional pre-training and fine-tuning Meditron-70B (68.9%) and Llama2-13B with RAG (54.9%) on a medical question-answering dataset. JMLR-13B (148 GPU hours) also trains much faster than Meditron-70B (42630 GPU hours). Through this work, we provide a new and efficient knowledge enhancement tool for healthcare, demonstrating the potential of integrating IR and LLM training for medical question-answering systems.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-16
# 情報フロー経路:大規模言語モデルの自動解釈

Information Flow Routes: Automatically Interpreting Language Models at Scale ( http://arxiv.org/abs/2403.00824v2 )

ライセンス: Link先を確認
Javier Ferrando, Elena Voita, (参考訳) 情報は、モデルに実装されたメカニズムを介して、ネットワーク内のルートによって流れる。 これらのルートは、ノードがネットワーク内の操作にトークン表現とエッジに対応するグラフとして表現できる。 私たちはこれらのグラフをトップダウンで自動的に構築し、各予測は最も重要なノードとエッジだけを残します。 アクティベーションパッチを頼りにしている既存のワークフローとは対照的に、私たちは属性を通じてこれを実行します。 予測テンプレートを慎重に設計する必要はなく、任意の予測のための情報フロー経路(許容テンプレートの内だけでなく)を抽出することができる。 結果として、特定の種類の予測、または異なるドメインに対して、モデル行動全般について話すことができる。 我々はLlama 2を用いて実験を行い、例えば以前のトークンヘッドとサブワードマージヘッドのような注意頭の役割が全体的に重要であることを示した。 次に,Llama 2の動作に類似性を見出す。 最後に、符号化や多言語テキストなどのドメインに特化できるモデルコンポーネントについて述べる。

Information flows by routes inside the network via mechanisms implemented in the model. These routes can be represented as graphs where nodes correspond to token representations and edges to operations inside the network. We automatically build these graphs in a top-down manner, for each prediction leaving only the most important nodes and edges. In contrast to the existing workflows relying on activation patching, we do this through attribution: this allows us to efficiently uncover existing circuits with just a single forward pass. Additionally, the applicability of our method is far beyond patching: we do not need a human to carefully design prediction templates, and we can extract information flow routes for any prediction (not just the ones among the allowed templates). As a result, we can talk about model behavior in general, for specific types of predictions, or different domains. We experiment with Llama 2 and show that the role of some attention heads is overall important, e.g. previous token heads and subword merging heads. Next, we find similarities in Llama 2 behavior when handling tokens of the same part of speech. Finally, we show that some model components can be specialized on domains such as coding or multilingual texts.
翻訳日:2024-04-18 18:41:31 公開日:2024-04-16
# Real-Valued Somewhat-Pseudorom Unitary

Real-Valued Somewhat-Pseudorandom Unitaries ( http://arxiv.org/abs/2403.16704v2 )

ライセンス: Link先を確認
Zvika Brakerski, Nir Magrafta, (参考訳) ランダム (二項) 相 - ランダム (二項) 相 - ランダム (二項) 相 - ランダムな計算基底置換。 この分布は、多項式多重性を持つ直交入力状態の任意の多項式集合に対してランダムなハールユニタリと統計的に区別できないことを示す。 これは、実数値ユニタリが完全擬似ランドム(Haug, Bharti, Koh, arXiv:2306.11677)とは言え、実数値ユニタリの単純さを諦めることなくいくつかの擬似ランドム特性を得ることができることを示している。 我々の分析は、ランダムな(二項)位相とランダムな計算基底置換を適用すると、入力が直交し、 \emph{flat}(計算ベースで測定された場合、高い最小エントロピーを持つ)という仮定で十分であることを示している。 量子セキュアな片道関数(つまり量子セキュアな擬似ランダム関数と置換)を用いて、上記の効率的な暗号インスタンス化を得る。

We explore a very simple distribution of unitaries: random (binary) phase -- Hadamard -- random (binary) phase -- random computational-basis permutation. We show that this distribution is statistically indistinguishable from random Haar unitaries for any polynomial set of orthogonal input states (in any basis) with polynomial multiplicity. This shows that even though real-valued unitaries cannot be completely pseudorandom (Haug, Bharti, Koh, arXiv:2306.11677), we can still obtain some pseudorandom properties without giving up on the simplicity of a real-valued unitary. Our analysis shows that an even simpler construction: applying a random (binary) phase followed by a random computational-basis permutation, would suffice, assuming that the input is orthogonal and \emph{flat} (that is, has high min-entropy when measured in the computational basis). Using quantum-secure one-way functions (which imply quantum-secure pseudorandom functions and permutations), we obtain an efficient cryptographic instantiation of the above.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-16
# 学期中等教育における大規模言語モデルの活用に関する調査研究

An Exploratory Study on Upper-Level Computing Students' Use of Large Language Models as Tools in a Semester-Long Project ( http://arxiv.org/abs/2403.18679v2 )

ライセンス: Link先を確認
Ben Arie Tanay, Lexy Arinze, Siddhant S. Joshi, Kirsten A. Davis, James C. Davis, (参考訳) 背景: ChatGPT や CoPilot のような大規模言語モデル (LLM) がソフトウェア工学の実践に影響を与える。 ソフトウェアエンジニアリング教育者は、将来のソフトウェアエンジニアにそのようなツールの使い方を教える必要がある。 現在,教室でのLSMの使用について報告する研究は少ない。 したがって、LLMに対する学生の認識と、これらのシフトするパラダイムにコンピュータカリキュラムを適応させる可能性を評価することが重要である。 目的: 本研究の目的は, 学期間ソフトウェアエンジニアリングプロジェクトにおいて, LLMの使用経験とアプローチを検討することである。 Design/Method: プルデュー大学の上級ソフトウェア工学コースからデータを収集しました。 このコースはプロジェクトベースラーニング(PBL)設計を使用する。 学生たちはプロジェクトにおいてChatGPTやCopilotといったLLMを使用した。 これらの学生チームのサンプルをインタビューし,(1)プロジェクトにおいてLLMをどのように利用したか,(2)学期を通じてLLMに対する視点がどう変化したのかを調べた。 本研究では,学生の利用パターンや学習成果に関連するテーマを特定するために,データを分析した。 results/Discussion: 学生がプロジェクト内でLLMを利用する場合、そのユースケースは技術と専門のアプリケーションの両方をカバーする。 さらに,これらの学生は,LLMが情報収集やタスク完了に有効なツールであると認識している。 しかし,LLMの責任は,学習成果に損なわれることなく利用されることが懸念された。 本研究は,LLMを学習の成果を損なうことなく学習支援として組み込むことができるかを理解するために,低レベルのコンピュータ工学コースにおけるLLMの使用状況について,今後の研究を推奨するものである。

Background: Large Language Models (LLMs) such as ChatGPT and CoPilot are influencing software engineering practice. Software engineering educators must teach future software engineers how to use such tools well. As of yet, there have been few studies that report on the use of LLMs in the classroom. It is, therefore, important to evaluate students' perception of LLMs and possible ways of adapting the computing curriculum to these shifting paradigms. Purpose: The purpose of this study is to explore computing students' experiences and approaches to using LLMs during a semester-long software engineering project. Design/Method: We collected data from a senior-level software engineering course at Purdue University. This course uses a project-based learning (PBL) design. The students used LLMs such as ChatGPT and Copilot in their projects. A sample of these student teams were interviewed to understand (1) how they used LLMs in their projects; and (2) whether and how their perspectives on LLMs changed over the course of the semester. We analyzed the data to identify themes related to students' usage patterns and learning outcomes. Results/Discussion: When computing students utilize LLMs within a project, their use cases cover both technical and professional applications. In addition, these students perceive LLMs to be efficient tools in obtaining information and completion of tasks. However, there were concerns about the responsible use of LLMs without being detrimental to their own learning outcomes. Based on our findings, we recommend future research to investigate the usage of LLM's in lower-level computer engineering courses to understand whether and how LLMs can be integrated as a learning aid without hurting the learning outcomes.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-16
# AttentionStore: 大規模言語モデルにおけるマルチターン会話における費用対効果の回避

AttentionStore: Cost-effective Attention Reuse across Multi-turn Conversations in Large Language Model Serving ( http://arxiv.org/abs/2403.19708v2 )

ライセンス: Link先を確認
Bin Gao, Zhuomin He, Puru Sharma, Qingxuan Kang, Djordje Jevdjic, Junbo Deng, Xingkun Yang, Zhou Yu, Pengfei Zuo, (参考訳) マルチターン会話を通して人間と対話することは、大きな言語モデル(LLM)の基本的特徴である。 しかし、過去のトークンのキー値(KV)キャッシュを何度も計算する必要があるため、マルチターン会話を実行するための既存のLLMサービスエンジンは非効率である。 本稿では,マルチターン会話におけるKVキャッシュの再利用を可能にする新しいアテンション機構であるAttentionStoreを提案する。 AttentionStoreは、コスト効率のよいメモリ/ストレージ媒体を活用して、すべてのリクエストにKVキャッシュを保存する階層的なKVキャッシュシステムを維持している。 遅い媒体からKVキャッシュアクセスのオーバーヘッドを低減するため、AttentionStoreでは、KVキャッシュアクセスとGPU計算を重複させるために、レイヤワイズプレロードと非同期保存スキームを採用している。 アクセスすべきKVキャッシュを最速階層に配置するために、AttentionStoreでは、スケジューラ対応のフェッチとエビクションスキームを使用して、推論ジョブスケジューラのヒントに基づいて、KVキャッシュを異なるレイヤに意識的に配置する。 コンテキストウィンドウオーバーフローによって発生する保存されたKVキャッシュの無効化を回避するため、AttentionStoreは、保存されたKVキャッシュを位置エンコーディングを分離し、KVキャッシュを効果的に停止することで有効にすることができる。 大規模な実験結果から, AttentionStoreは第1トークン(TTFT)までの時間を最大87%削減し, マルチターン会話のスループットを7.8$\times$に改善し, エンドツーエンドの推論コストを最大70%削減した。 長いシーケンス推論のために、AttentionStoreはTTFTを最大95%削減し、プロンプトプリフィルのスループットを22$\times$で改善する。

Interacting with humans through multi-turn conversations is a fundamental feature of large language models (LLMs). However, existing LLM serving engines for executing multi-turn conversations are inefficient due to the need to repeatedly compute the key-value (KV) caches of historical tokens, incurring high serving costs. To address the problem, this paper proposes AttentionStore, a new attention mechanism that enables the reuse of KV caches (i.e., attention reuse) across multi-turn conversations, significantly reducing the repetitive computation overheads. AttentionStore maintains a hierarchical KV caching system that leverages cost-effective memory/storage mediums to save KV caches for all requests. To reduce KV cache access overheads from slow mediums, AttentionStore employs layer-wise pre-loading and asynchronous saving schemes to overlap the KV cache access with the GPU computation. To ensure that the KV caches to be accessed are placed in the fastest hierarchy, AttentionStore employs scheduler-aware fetching and eviction schemes to consciously place the KV caches in different layers based on the hints from the inference job scheduler. To avoid the invalidation of the saved KV caches incurred by context window overflow, AttentionStore enables the saved KV caches to remain valid via decoupling the positional encoding and effectively truncating the KV caches. Extensive experimental results demonstrate that AttentionStore significantly decreases the time to the first token (TTFT) by up to 87%, improves the prompt prefilling throughput by 7.8$\times$ for multi-turn conversations, and reduces the end-to-end inference cost by up to 70%. For long sequence inference, AttentionStore reduces the TTFT by up to 95% and improves the prompt prefilling throughput by 22$\times$.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-16
# CAESAR:コンバージェンス・アウェア・サンプリングによる異種MDPのフェデレーションRL向上

CAESAR: Enhancing Federated RL in Heterogeneous MDPs through Convergence-Aware Sampling with Screening ( http://arxiv.org/abs/2403.20156v2 )

ライセンス: Link先を確認
Hei Yi Mak, Flint Xiaofeng Fan, Luca A. Lanzendörfer, Cheston Tan, Wei Tsang Ooi, Roger Wattenhofer, (参考訳) 本研究では,フェデレーション強化学習(FedRL)を多種多様なマルコフ決定プロセス(MDP)にまたがる価値ベースエージェントの文脈で探究する。 既存のFedRLメソッドは通常、エージェントの学習を、そのパフォーマンスを改善するために、それらの値関数の平均化によって集約する。 しかし、エージェントが多様な最適値関数に収束する異種環境においては、このアグリゲーション戦略は準最適である。 この問題に対処するために,多様なMDPを対象とした個別エージェントの学習を促進するために,CAESAR(Convergence-AwarE SAmpling with screening)アグリゲーション方式を導入する。 CAESARは、収束認識サンプリングとスクリーニングメカニズムを組み合わせた、サーバが使用する集約戦略である。 同一のMDPで学習するエージェントが同じ最適値関数に収束しているという事実を利用して、CAESARはより熟練したエージェントからの知識の選択的同化を可能にし、全体的な学習効率を大幅に向上させる。 この仮説を実証的に検証し,カスタム構築のGridWorld環境と古典的なFrozenLake-v1タスクの両方を用いて,エージェントの学習効率を高めるためのCAESARの有効性を実証した。

In this study, we delve into Federated Reinforcement Learning (FedRL) in the context of value-based agents operating across diverse Markov Decision Processes (MDPs). Existing FedRL methods typically aggregate agents' learning by averaging the value functions across them to improve their performance. However, this aggregation strategy is suboptimal in heterogeneous environments where agents converge to diverse optimal value functions. To address this problem, we introduce the Convergence-AwarE SAmpling with scReening (CAESAR) aggregation scheme designed to enhance the learning of individual agents across varied MDPs. CAESAR is an aggregation strategy used by the server that combines convergence-aware sampling with a screening mechanism. By exploiting the fact that agents learning in identical MDPs are converging to the same optimal value function, CAESAR enables the selective assimilation of knowledge from more proficient counterparts, thereby significantly enhancing the overall learning efficiency. We empirically validate our hypothesis and demonstrate the effectiveness of CAESAR in enhancing the learning efficiency of agents, using both a custom-built GridWorld environment and the classical FrozenLake-v1 task, each presenting varying levels of environmental heterogeneity.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-16
# 相互運用型ソーシャルネットワークのための分散型モデレーション--フレロマとフェリバースの対話に基づくアプローチ

Decentralised Moderation for Interoperable Social Networks: A Conversation-based Approach for Pleroma and the Fediverse ( http://arxiv.org/abs/2404.03048v2 )

ライセンス: Link先を確認
Vibhor Agarwal, Aravindh Raman, Nishanth Sastry, Ahmed M. Abdelmoniem, Gareth Tyson, Ignacio Castro, (参考訳) 近年の分散化と相互運用可能なソーシャルネットワーク(例えば"fediverse")の発展は、コンテンツモデレーターにとって新たな課題を生み出している。 これは、受信サーバが全く異なるモデレーションポリシーを持っている場合でも、あるサーバで生成された何百万ものポストが、簡単に別のサーバに"拡散"できるためである。 明らかな解決策は、モデレーションツールを活用して、有害な音声に関連するようなモデレーションポリシーに反するポストを自動的にタグ付け(およびフィルタリング)することです。 最近の研究は、投稿の会話の文脈を利用して、この自動タグ付けを改善する。 これは、完全な会話を含む大きなトレーニングセットを持つ環境において、特に可能性があることを示している。 しかしこれは、単一の会話が複数のサーバにまたがって断片化される可能性があるため、分散化されたコンテキストにおける課題を生み出します。 したがって、各サーバは会話全体の部分的なビューしか持たない。 この問題に対処するため,我々は,分散化された会話対応コンテンツモデレーション手法を提案する。 当社のアプローチでは,各サーバ上でローカルにトレーニングされたグラフ深層学習モデル(GraphNLI)を採用している。 このモデルは、ローカルデータを利用して、ランダムウォークで捉えたポスト情報と会話情報を組み合わせて、毒性を検出するモデルを訓練する。 我々は,200万の会話を含む分散型で相互運用可能なマイクロブログネットワークであるPleromaのデータを用いて,我々のアプローチを評価する。 本モデルでは, 局所的なポスト情報(0.8837 macro-F1)を用いて, 大規模インスタンスの毒性を効果的に検出する。 当社のアプローチは,PleromaやMastodonといった分散型・相互運用可能なソーシャルネットワークにおいて,モデレーションを改善するためのかなりの範囲を持っている。

The recent development of decentralised and interoperable social networks (such as the "fediverse") creates new challenges for content moderators. This is because millions of posts generated on one server can easily "spread" to another, even if the recipient server has very different moderation policies. An obvious solution would be to leverage moderation tools to automatically tag (and filter) posts that contravene moderation policies, e.g. related to toxic speech. Recent work has exploited the conversational context of a post to improve this automatic tagging, e.g. using the replies to a post to help classify if it contains toxic speech. This has shown particular potential in environments with large training sets that contain complete conversations. This, however, creates challenges in a decentralised context, as a single conversation may be fragmented across multiple servers. Thus, each server only has a partial view of an entire conversation because conversations are often federated across servers in a non-synchronized fashion. To address this, we propose a decentralised conversation-aware content moderation approach suitable for the fediverse. Our approach employs a graph deep learning model (GraphNLI) trained locally on each server. The model exploits local data to train a model that combines post and conversational information captured through random walks to detect toxicity. We evaluate our approach with data from Pleroma, a major decentralised and interoperable micro-blogging network containing 2 million conversations. Our model effectively detects toxicity on larger instances, exclusively trained using their local post information (0.8837 macro-F1). Our approach has considerable scope to improve moderation in decentralised and interoperable social networks such as Pleroma or Mastodon.
翻訳日:2024-04-18 18:31:46 公開日:2024-04-16
# アルゴリズム推論におけるChatGPTのベンチマーク

Benchmarking ChatGPT on Algorithmic Reasoning ( http://arxiv.org/abs/2404.03441v2 )

ライセンス: Link先を確認
Sean McLeish, Avi Schwarzschild, Tom Goldstein, (参考訳) GNN向けに設計されたCLRSベンチマークスイートからChatGPTのアルゴリズム問題を解く能力を評価する。 このベンチマークでは、与えられた問題を解決するために、指定された古典的アルゴリズムを使用する必要がある。 ChatGPTは、Pythonを使ってこれらの問題を解決することで、専門家のGNNモデルより優れています。 これにより、ニューラルネットワークによるアルゴリズムの学習や、Webスケールのトレーニングデータによる分散テストの成果がどのようなものか、という議論において、新たなポイントが生まれました。

We evaluate ChatGPT's ability to solve algorithm problems from the CLRS benchmark suite that is designed for GNNs. The benchmark requires the use of a specified classical algorithm to solve a given problem. We find that ChatGPT outperforms specialist GNN models, using Python to successfully solve these problems. This raises new points in the discussion about learning algorithms with neural networks and how we think about what out of distribution testing looks like with web scale training data.
翻訳日:2024-04-18 18:22:01 公開日:2024-04-16
# 悪意のある目標を優れたナラティブに隠蔽する - ロジックチェーン注入による大規模言語モデルの脱獄

Hidden You Malicious Goal Into Benign Narratives: Jailbreak Large Language Models through Logic Chain Injection ( http://arxiv.org/abs/2404.04849v2 )

ライセンス: Link先を確認
Zhilong Wang, Yebo Cao, Peng Liu, (参考訳) 言語モデルモデル(LLM)に対するジェイルブレイク攻撃には、悪意のあるコンテンツを生成するためにモデルを活用することを目的としたクラフトプロンプトが含まれる。 既存のジェイルブレイク攻撃はLLMを欺くことができるが、人間を欺くことはできない。 本稿では,LLMと人間(セキュリティアナリスト)の両方を騙すことができる新しいタイプのジェイルブレイク攻撃を提案する。 人間の考え方は、嘘が真実に隠されている場合、容易に騙される。 この知見に基づいて,悪意ある意図を真理に注入するロジックチェーンインジェクション攻撃を提案した。 論理鎖インジェクション攻撃は、まず悪意のあるターゲットを良心的なナレーションの連鎖に分解し、そのナレーションを疑わしい事実とともに関連する良心的な記事に分配する。 このように、新たに生成されたプロンプトは、LSMを騙すだけでなく、人間を騙すこともできる。

Jailbreak attacks on Language Model Models (LLMs) entail crafting prompts aimed at exploiting the models to generate malicious content. Existing jailbreak attacks can successfully deceive the LLMs, however they cannot deceive the human. This paper proposes a new type of jailbreak attacks which can deceive both the LLMs and human (i.e., security analyst). The key insight of our idea is borrowed from the social psychology - that is human are easily deceived if the lie is hidden in truth. Based on this insight, we proposed the logic-chain injection attacks to inject malicious intention into benign truth. Logic-chain injection attack firstly dissembles its malicious target into a chain of benign narrations, and then distribute narrations into a related benign article, with undoubted facts. In this way, newly generate prompt cannot only deceive the LLMs, but also deceive human.
翻訳日:2024-04-18 18:22:01 公開日:2024-04-16
# 無線エッジにおけるメディアストリーミングのための構造化強化学習

Structured Reinforcement Learning for Media Streaming at the Wireless Edge ( http://arxiv.org/abs/2404.07315v2 )

ライセンス: Link先を確認
Archana Bura, Sarat Chandra Bobbili, Shreyas Rameshkumar, Desik Rengarajan, Dileep Kalathil, Srinivas Shakkottai, (参考訳) メディアストリーミングは、無線エッジ(アクセス)ネットワーク上の支配的なアプリケーションである。 このようなネットワークのソフトウォー化の増大は、ユーザエクスペリエンスを高めるためにアプリケーション固有のアクションを動的に取り込む、インテリジェントな制御への取り組みにつながっている。 本研究の目的は、ビデオストリーミング環境でどのクライアントを動的に優先順位付けするかを決定するための最適な意思決定のための学習ベースのポリシーの開発と実証である。 政策設計問題を制約付きマルコフ決定問題 (CMDP) として定式化し、ラグランジアン緩和を用いることで、単一サイクル問題に分解できることを観察する。 さらに,ビデオバッファ長のしきい値を用いて,効率的な制約付き強化学習(CRL)アルゴリズムを設計して学習する。 具体的には,問題の構造を用いて導出される自然ポリシー勾配(NPG)に基づくアルゴリズムが,グローバルな最適ポリシーに収束することを示す。 次に、トレーニングのためのシミュレーション環境と、評価のためのWiFiアクセスポイントにアタッチされた現実世界のインテリジェントコントローラを開発する。 構造化学習アプローチが高速学習を可能にすることを実証的に示す。 さらに、そのような構造化されたポリシーは、計算の複雑さが低いために容易に展開でき、ポリシーの実行には15$\mu$sしかかからない。 リソース制約のあるシナリオでYouTubeストリーミング実験を使用することで、CRLアプローチにより、QOE(Quality of Experience)が30%以上向上することを示した。

Media streaming is the dominant application over wireless edge (access) networks. The increasing softwarization of such networks has led to efforts at intelligent control, wherein application-specific actions may be dynamically taken to enhance the user experience. The goal of this work is to develop and demonstrate learning-based policies for optimal decision making to determine which clients to dynamically prioritize in a video streaming setting. We formulate the policy design question as a constrained Markov decision problem (CMDP), and observe that by using a Lagrangian relaxation we can decompose it into single-client problems. Further, the optimal policy takes a threshold form in the video buffer length, which enables us to design an efficient constrained reinforcement learning (CRL) algorithm to learn it. Specifically, we show that a natural policy gradient (NPG) based algorithm that is derived using the structure of our problem converges to the globally optimal policy. We then develop a simulation environment for training, and a real-world intelligent controller attached to a WiFi access point for evaluation. We empirically show that the structured learning approach enables fast learning. Furthermore, such a structured policy can be easily deployed due to low computational complexity, leading to policy execution taking only about 15$\mu$s. Using YouTube streaming experiments in a resource constrained scenario, we demonstrate that the CRL approach can increase quality of experience (QOE) by over 30\%.
翻訳日:2024-04-18 18:22:01 公開日:2024-04-16
# 強化学習によるデータセンターデジタル双生児の持続可能性

Sustainability of Data Center Digital Twins with Reinforcement Learning ( http://arxiv.org/abs/2404.10786v1 )

ライセンス: Link先を確認
Soumyendu Sarkar, Avisek Naug, Antonio Guillen, Ricardo Luna, Vineet Gundecha, Ashwin Ramesh Babu, Sajad Mousavi, (参考訳) 機械学習(ML)の急速な成長により、計算能力の需要が増加し、データセンター(DC)が大きくなり、エネルギー消費が増加した。 この問題に対処し、二酸化炭素排出量を減らすために、ITサーバ、キャビネット、HVAC冷却、柔軟な負荷シフト、バッテリーエネルギー貯蔵といったDCコンポーネントの設計と制御が不可欠である。 しかし、それらをタンデムで設計し、制御することの複雑さは、重大な課題である。 CFDベースのデザインや強化学習(Reinforcement Learning, RL)ベースのHVACコントロールなどの個々のコンポーネントが研究されているが、すべての要素を同時にカバーする全体設計と最適化にはギャップがある。 DCRL-GreenはMLコミュニティがデータセンターを設計し、DCにおける炭素フットプリント削減のためのRLコントローラを開発し、改良することを可能にするマルチエージェントRL環境である。 柔軟性があり、モジュール化され、スケーラブルで、構成可能なプラットフォームで、大規模なHPC(High Performance Computing)クラスタを処理できる。 さらに、デフォルト設定では、DCRL-GreenはシングルおよびマルチエージェントRLアルゴリズムを評価するためのベンチマークを提供する。 これにより、ユーザはデフォルトの実装をサブクラス化し、独自のコントロールアプローチを設計し、持続可能なデータセンターのためのコミュニティ開発を奨励できる。 オープンソースリンク:https://github.com/HewlettPackard/dc-rl

The rapid growth of machine learning (ML) has led to an increased demand for computational power, resulting in larger data centers (DCs) and higher energy consumption. To address this issue and reduce carbon emissions, intelligent design and control of DC components such as IT servers, cabinets, HVAC cooling, flexible load shifting, and battery energy storage are essential. However, the complexity of designing and controlling them in tandem presents a significant challenge. While some individual components like CFD-based design and Reinforcement Learning (RL) based HVAC control have been researched, there's a gap in the holistic design and optimization covering all elements simultaneously. To tackle this, we've developed DCRL-Green, a multi-agent RL environment that empowers the ML community to design data centers and research, develop, and refine RL controllers for carbon footprint reduction in DCs. It is a flexible, modular, scalable, and configurable platform that can handle large High Performance Computing (HPC) clusters. Furthermore, in its default setup, DCRL-Green provides a benchmark for evaluating single as well as multi-agent RL algorithms. It easily allows users to subclass the default implementations and design their own control approaches, encouraging community development for sustainable data centers. Open Source Link: https://github.com/HewlettPackard/dc-rl
翻訳日:2024-04-18 18:22:00 公開日:2024-04-16
# ネットワーク侵入検出の強化:グラフニューラルネットワークと散乱変換とノード2Vecの統合による異常検出

Advancing Network Intrusion Detection: Integrating Graph Neural Networks with Scattering Transform and Node2Vec for Enhanced Anomaly Detection ( http://arxiv.org/abs/2404.10800v1 )

ライセンス: Link先を確認
Abdeljalil Zoubir, Badr Missaoui, (参考訳) 本稿では,グラフニューラルネットワーク(GNN)を用いたネットワーク侵入検知システム(NIDS)における2つの新しい手法を提案する。 最初のアプローチであるScattering Transform with E-GraphSAGE (STEG)は、散乱変換を用いてエッジ特徴ベクトルの多重分解能解析を行う。 これは、ネットワークトラフィックの微妙な異常を特定するのに不可欠な詳細な表現を提供する。 第2のアプローチでは、ノード表現をNode2Vecで開始することで改善し、統一値を使用する標準的な方法から逸脱し、より正確で全体的なネットワーク画像を取得する。 提案手法は,ベンチマークNIDSデータセットにおける既存の最先端手法と比較して,性能が大幅に向上した。

In this paper, we present two novel methods in Network Intrusion Detection Systems (NIDS) using Graph Neural Networks (GNNs). The first approach, Scattering Transform with E-GraphSAGE (STEG), utilizes the scattering transform to conduct multi-resolution analysis of edge feature vectors. This provides a detailed representation that is essential for identifying subtle anomalies in network traffic. The second approach improves node representation by initiating with Node2Vec, diverging from standard methods of using uniform values, thereby capturing a more accurate and holistic network picture. Our methods have shown significant improvements in performance compared to existing state-of-the-art methods in benchmark NIDS datasets.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 誤差境界をもつトレース距離の操作形式を用いた量子ネットワークにおけるリンク忠実度試験

Testing Link Fidelity in a Quantum Network using Operational Form of Trace Distance with Error Bounds ( http://arxiv.org/abs/2404.10803v1 )

ライセンス: Link先を確認
John T. M. Campbell, Nicola Marchetti, John Dooley, Indrakshi Dey, (参考訳) 量子状態比較は、忠実度やトレース距離などの指標を利用して、量子情報理論における量子ネットワークの評価を支えている。 最近の研究は理論的な理解を拡大しているが、エラー解析とスケーラビリティの考慮が実用化には不可欠である。 このレターの主な貢献は、マルチノードネットワークの新たな運用トレース距離を導出し、エラー境界を組み込んだトレース距離対忠実度ベンチマークを確立し、テンソルネットワーク解析で量子演算をブリッジすることで、これらのギャップに対処することである。 さらに、量子ネットワークへのテンソルネットワークツールの適用について検討し、新しい解析手法を提案する。 この包括的なアプローチは、現実的なエラー条件下で量子ネットワークのパフォーマンスを評価するための堅牢なフレームワークを提供し、信頼性の高い量子技術の開発を容易にする。

Quantum state comparison, utilizing metrics like fidelity and trace distance, underpins the assessment of quantum networks within quantum information theory. While recent research has expanded theoretical understanding, incorporating error analysis and scalability considerations remains crucial for practical applications. The primary contribution of this letter is to address these gaps by deriving the novel operational trace distance for multi-node networks, establishing a trace distance vs. fidelity benchmark incorporating error bounds, and bridging quantum operations with tensor network analysis. We further explore the application of tensor network tools to quantum networks, offering new analytical avenues. This comprehensive approach provides a robust framework for evaluating quantum network performance under realistic error conditions, facilitating the development of reliable quantum technologies.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 単一波動関数による高次ホール導電性:(2+1)Dトポロジカル秩序の対称性保存ギャップエッジへの障害

Higher Hall conductivity from a single wave function: Obstructions to symmetry-preserving gapped edge of (2+1)D topological order ( http://arxiv.org/abs/2404.10814v1 )

ライセンス: Link先を確認
Ryohei Kobayashi, Taige Wang, Tomohiro Soejima, Roger S. K. Mong, Shinsei Ryu, (参考訳) U(1)対称性を持つ(2+1)Dトポロジカル秩序相は、熱と電気のホールの導電性の両方が消滅しても、対称的なギャップ状態を持つかもしれないし、そうでないかもしれない。 最近、フェルミオン分数量子ホール(FQH)状態に有効な「高い」ホール導電性が存在することが判明した。 本稿では,部分空間回転とU(1)位相回転を組み合わせた「部分回転」ユニタリの期待値を評価することにより,FQH状態の単一波動関数から高ホール導電率を抽出できることを示す。 この結果は、フェルミオン性ラウリン状態が$\nu=1/3$, $1/5$, および非アベリアムーア-リード状態で数値的に検証される。 位相的絡み合いエントロピーとともに、部分回転の期待値が、U(1)対称性を持つボゾン/フェルミオンアベリアン位相秩序が対称性保存可能なギャップ状態を持つか否かを、完全に決定することを証明する。 非アベリア FQH 状態においても、部分回転は、バルク境界系の低エネルギースペクトルを制約するリーブ・シュルツ・マティス型定理を与える。 リー群対称性を持つ場合に対する高次ホール導電率の一般化も示される。

A (2+1)D topological ordered phase with U(1) symmetry may or may not have a symmetric gapped edge state, even if both thermal and electric Hall conductivity are vanishing. It is recently discovered that there are "higher" versions of Hall conductivity valid for fermionic fractional quantum Hall (FQH) states, which obstructs symmetry-preserving gapped edge state beyond thermal and electric Hall conductivity. In this paper, we show that one can extract higher Hall conductivity from a single wave function of an FQH state, by evaluating the expectation value of the "partial rotation" unitary which is a combination of partial spatial rotation and a U(1) phase rotation. This result is verified numerically with the fermionic Laughlin state with $\nu=1/3$, $1/5$, as well as the non-Abelian Moore-Read state. Together with topological entanglement entropy, we prove that the expectation values of the partial rotation completely determines if a bosonic/fermionic Abelian topological order with U(1) symmetry has a symmetry-preserving gappable edge state or not. Even in non-Abelian FQH states, partial rotation provides the Lieb-Schultz-Mattis type theorem constraining the low-energy spectrum of the bulk-boundary system. The generalization of higher Hall conductivity to the case with Lie group symmetry is also presented.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 量子コンピューティングにおけるパスフィニング問題の定式化フレームワーク

A Framework to Formulate Pathfinding Problems for Quantum Computing ( http://arxiv.org/abs/2404.10820v1 )

ライセンス: Link先を確認
Damian Rovara, Nils Quetschlich, Robert Wille, (参考訳) 量子コンピューティングの応用がますます広まり、現場経験のないエンドユーザが量子コンピュータを使って個々の問題を解決する方法を見つけることが、重要な課題になりつつある。 しかし、現在の最適化アルゴリズムでは、問題インスタンスを、専門家にとっても、定式化が難しい複雑なフォーマットで提示する必要がある。 特に、量子近似最適化アルゴリズム (Quantum Approximate Optimization Algorithm, QAOA) など、多くの量子最適化アルゴリズムで使用される準拘束的二項最適化 (Quantum Unconstrained Binary Optimization, QUBO) 形式は、厳密な条件下での制約の数学的書き換えを含む。 このプロセスを容易にするために,パスフィリング問題に対するQUBOの定式化を自動的に生成するフレームワークを提案する。 このフレームワークにより、ユーザーは特定の問題インスタンスを、量子コンピューティングの分野の専門知識を必要とせずに、最適化のために直接量子アルゴリズムに渡すことができる定式化に変換することができる。 手作業による修正作業を必要とせずに簡単に比較できる3つの異なる符号化スキームをサポートしている。 結果として得られるQUBOの定式化は堅牢で効率的であり、それまでの面倒でエラーを起こしやすい改定プロセスを数秒で完了できるタスクに短縮する。 https://github.com/cda-tum/mqt-qubomakerで利用可能なオープンソースのPythonパッケージに加えて、Webからアクセス可能なグラフィカルなユーザインターフェース(https://cda-tum.github.io/mqt-qubomaker/)も提供しています。

With the applications of quantum computing becoming more and more widespread, finding ways that allow end users without experience in the field to apply quantum computers to solve their individual problems is becoming a crucial task. However, current optimization algorithms require problem instances to be posed in complex formats that are challenging to formulate, even for experts. In particular, the Quadratic Unconstrained Binary Optimization (QUBO) formalism employed by many quantum optimization algorithms, such as the Quantum Approximate Optimization Algorithm (QAOA), involves the mathematical rewriting of constraints under strict conditions. To facilitate this process, we propose a framework to automatically generate QUBO formulations for pathfinding problems. This framework allows users to translate their specific problem instances into formulations that can be passed directly to quantum algorithms for optimization without requiring any expertise in the field of quantum computing. It supports three different encoding schemes that can easily be compared without requiring manual reformulation efforts. The resulting QUBO formulations are robust and efficient, reducing the previously tedious and error-prone reformulation process to a task that can be completed in a matter of seconds. In addition to an open-source Python package available on https://github.com/cda-tum/mqt-qubomaker, we also provide a graphical user interface accessible through the web (https://cda-tum.github.io/mqt-qubomaker/), which can be used to operate the framework without requiring the end user to write any code.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 非平衡バイアスからの有限温度における広範囲な長距離絡み合い

Extensive Long-Range Entanglement at Finite Temperatures from a Nonequilibrium Bias ( http://arxiv.org/abs/2404.10822v1 )

ライセンス: Link先を確認
Shachar Fraenkel, Moshe Goldstein, (参考訳) 局所量子多体系の熱平衡状態は、その空間的に崩壊する相関で有名であり、有限温度で観測される多体絡み構造のタイプに厳しい制限を与える。 しかしながら、これらの制限は、不平衡な定常状態が代わりに考慮されるときに無効にすることができる。 本稿では, 一般電荷およびエネルギー保存不純物を含む1次元格子上の自由フェルミオンの絡み合い特性について検討し, 平衡エネルギー分布の異なる2つの貯水池にその端で接続する。 これらの分布は温度、化学的ポテンシャル、またはその両方で異なり、したがって外部バイアスを引き起こす。 我々は、不純物の反対側に位置する2つのサブシステム間の相関と絡み合いを定量化する、いくつかの量子情報測度(相互情報、R'enyiの一般化、フェルミオン負性)の正確な漸近式を解析的に導出した。 これらの測度は、各サブシステム間の距離とは無関係に、一方のサブシステムと他方のミラー画像との重なり合い(後者は不純物に関する鏡像を反映したもの)に線形にスケールすることを示します。 負性率とR'enyi版の相互情報の単純な比例関係はゼロ温度で保持することが観察されるが、有限温度で分解され、これらの量が異なる起源の強い長距離相関を示すことが示唆される。 以上の結果から,0温度での化学ポテンシャルバイアスの場合に限る以前の知見を一般化し,長距離容積法の影響が有限温度で頑健であることの厳密な証明を行った。

Thermal equilibrium states of local quantum many-body systems are notorious for their spatially decaying correlations, which place severe restrictions on the types of many-body entanglement structures that may be observed at finite temperatures. These restrictions may however be defied when an out-of-equilibrium steady state is considered instead. In this paper, we study the entanglement properties of free fermions on a one-dimensional lattice that contains a generic charge- and energy-conserving noninteracting impurity, and that is connected at its edges to two reservoirs with different equilibrium energy distributions. These distributions may differ in either temperature, chemical potential, or both, thereby inducing an external bias. We analytically derive exact asymptotic expressions for several quantum information measures -- the mutual information, its R\'enyi generalizations, and the fermionic negativity -- that quantify the correlation and entanglement between two subsystems located on opposite sides of the impurity. We show that all these measures scale (to a leading order) linearly with the overlap between one subsystem and the mirror image of the other (upon reflection of the latter about the impurity), independently of the distance between the subsystems. While a simple proportionality relation between the negativity and R\'enyi versions of the mutual information is observed to hold at zero temperature, it breaks down at finite temperatures, suggesting that these quantities represent strong long-range correlations of different origins. Our results generalize previous findings that were limited to the case of a chemical-potential bias at zero temperature, rigorously demonstrating that the effect of long-range volume-law entanglement is robust at finite temperatures.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 未成年者の体重減少、ノームで約1300億円

Decoupled Weight Decay for Any $p$ Norm ( http://arxiv.org/abs/2404.10824v1 )

ライセンス: Link先を確認
Nadav Joseph Outmezguine, Noam Levi, (参考訳) さまざまなドメインにおけるディープニューラルネットワーク(NN)の成功により、大規模なNNのトレーニングとデプロイのための計算およびストレージ要件が、さらなる改善のボトルネックになっている。 その結果、これらの問題に対処するための主要なアプローチとしてスパシフィケーションが出現した。 本研究では,ブリッジをベースとしたスペーシフィケーションや,トレーニング中の正規化に対して$L_p$という,シンプルかつ効果的なアプローチを検討する。 我々は、任意の$p$ノルムに対して標準の$L_2$ウェイト崩壊を一般化する新しいウェイト崩壊スキームを導入する。 このスキームは適応オプティマイザと互換性があることを示し、0<p<1$ノルムに付随する勾配のばらつきを回避する。 我々は、標準の$L_2$正規化に匹敵する一般化性能を維持しながら、非常にスパースなネットワークにつながることを実証的に実証した。

With the success of deep neural networks (NNs) in a variety of domains, the computational and storage requirements for training and deploying large NNs have become a bottleneck for further improvements. Sparsification has consequently emerged as a leading approach to tackle these issues. In this work, we consider a simple yet effective approach to sparsification, based on the Bridge, or $L_p$ regularization during training. We introduce a novel weight decay scheme, which generalizes the standard $L_2$ weight decay to any $p$ norm. We show that this scheme is compatible with adaptive optimizers, and avoids the gradient divergence associated with $0<p<1$ norms. We empirically demonstrate that it leads to highly sparse networks, while maintaining generalization performance comparable to standard $L_2$ regularization.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 言語モデリングを改善するローワー・トランケーション

Fewer Truncations Improve Language Modeling ( http://arxiv.org/abs/2404.10830v1 )

ライセンス: Link先を確認
Hantian Ding, Zijian Wang, Giovanni Paolini, Varun Kumar, Anoop Deoras, Dan Roth, Stefano Soatto, (参考訳) 大規模な言語モデルトレーニングでは、入力文書は典型的には結合され、パディングトークンを避けるために等しい長さのシーケンスに分割される。 その効率性にもかかわらず、結合アプローチはデータの整合性を損なう -- 多くのドキュメントを必然的に不完全な部分に分解し、モデルが学習を妨げ、完全なコンテキストに根ざした論理的に一貫性のある、事実的に一貫性のあるコンテンツを構成する。 そこで本研究では,文書を長さを考慮した組合せ最適化によりトレーニングシーケンスにまとめる,スケーラブルで効率的なBest-fit Packingを提案する。 本手法は,連結と同じ訓練効率を維持しつつ,不要な切り離しを完全に除去する。 テキストとコードによる事前学習による実験結果から,本手法は優れた性能(読解理解では+4.7%,文脈順では+16.8%,プログラム合成では+9.2%)を達成し,閉領域幻覚を58.3%まで効果的に減少させることがわかった。

In large language model training, input documents are typically concatenated together and then split into sequences of equal length to avoid padding tokens. Despite its efficiency, the concatenation approach compromises data integrity -- it inevitably breaks many documents into incomplete pieces, leading to excessive truncations that hinder the model from learning to compose logically coherent and factually consistent content that is grounded on the complete context. To address the issue, we propose Best-fit Packing, a scalable and efficient method that packs documents into training sequences through length-aware combinatorial optimization. Our method completely eliminates unnecessary truncations while retaining the same training efficiency as concatenation. Empirical results from both text and code pre-training show that our method achieves superior performance (e.g., relatively +4.7% on reading comprehension; +16.8% in context following; and +9.2% on program synthesis), and reduces closed-domain hallucination effectively by up to 58.3%.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 触覚センサを用いたヒューマノイド視覚のセマンティック・アクティブ・パーセプション

Semantic-Based Active Perception for Humanoid Visual Tasks with Foveal Sensors ( http://arxiv.org/abs/2404.10836v1 )

ライセンス: Link先を確認
João Luzio, Alexandre Bernardino, Plinio Moreno, (参考訳) 本研究の目的は,人間によって定期的に行われる視覚的タスク,すなわちシーン探索と視覚的探索を,近年のセマンティックベースの眼球活動知覚モデルがいかに正確に達成できるかを確立することである。 このモデルは、現在のオブジェクト検出器が多数のオブジェクトクラスをローカライズし、分類し、複数の固定にまたがるシーンのセマンティック記述を更新する能力を利用する。 以前は現場調査に用いられた。 本稿では,モデルを再検討し,その応用を視覚検索タスクに拡張する。 シーン探索や視覚探索における意味情報の利用の利点を説明するため,従来のサリエンシモデルと比較した。 シーン探索のタスクでは、視覚的なシーンに存在するセマンティック情報を正確に表現する従来のサリエンシモデルと比較して、セマンティックベースの手法が優れたパフォーマンスを示す。 ビジュアルサーチ実験では,複数のイントラクタを含む視野内のターゲットクラスのインスタンスを探索することで,サリエンシ駆動モデルやランダムな視線選択アルゴリズムよりも優れた性能を示す。 以上の結果から,トップダウンのセマンティック情報が視覚探索や探索作業に大きな影響を与え,従来のボトムアップ手法と統合するための潜在的研究領域が示唆された。

The aim of this work is to establish how accurately a recent semantic-based foveal active perception model is able to complete visual tasks that are regularly performed by humans, namely, scene exploration and visual search. This model exploits the ability of current object detectors to localize and classify a large number of object classes and to update a semantic description of a scene across multiple fixations. It has been used previously in scene exploration tasks. In this paper, we revisit the model and extend its application to visual search tasks. To illustrate the benefits of using semantic information in scene exploration and visual search tasks, we compare its performance against traditional saliency-based models. In the task of scene exploration, the semantic-based method demonstrates superior performance compared to the traditional saliency-based model in accurately representing the semantic information present in the visual scene. In visual search experiments, searching for instances of a target class in a visual field containing multiple distractors shows superior performance compared to the saliency-driven model and a random gaze selection algorithm. Our results demonstrate that semantic information, from the top-down, influences visual exploration and search tasks significantly, suggesting a potential area of research for integrating it with traditional bottom-up cues.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 効率的なクロスモーダル表現学習のための事前学習型マルチモーダル大モデルからの動的自己適応型マルチスケール蒸留

Dynamic Self-adaptive Multiscale Distillation from Pre-trained Multimodal Large Model for Efficient Cross-modal Representation Learning ( http://arxiv.org/abs/2404.10838v1 )

ライセンス: Link先を確認
Zhengyang Liang, Meiyu Liang, Wei Huang, Yawen Li, Zhe Xue, (参考訳) 近年,様々なマルチモーダルアプリケーションの性能向上により,事前学習型マルチモーダル大型モデルが注目されている。 それでも、訓練に必要な膨大な計算リソースと膨大なデータセットは、限られた計算リソースを持つ環境に展開する上で大きなハードルとなる。 この課題に対処するため,本研究では,事前学習型マルチモーダル大規模モデルを用いた動的自己適応型マルチスケール蒸留を初めて提案する。 既存の蒸留法とは違って,本手法では,事前学習したマルチモーダル大規模モデルから構造的知識を抽出する。 生徒モデルが教師の知識の包括的かつ曖昧な理解を継承することを保証する。 本研究では, 各蒸留損失をバランスよく効率的に最適化するために, 動的自己適応型蒸留損失バランサ, 手動損失重量調整の必要性を排除し, 蒸留工程中に各損失項目を動的にバランスさせる新しい部品を提案する。 提案手法は,出力特性と画像レベルの情報のみを用いて,事前学習したマルチモーダル大規模モデルを合理化し,最小限の計算資源を必要とする。 この効率的なアプローチは様々なアプリケーションに適しており、リソース制限された設定でも高度なマルチモーダルテクノロジーをデプロイすることができる。 大規模な実験により,本手法はモデル複雑度とトレーニングコストを大幅に削減しつつ,高い性能を維持していることが示された。 さらに, 蒸留した学生モデルは, 画像レベルの情報のみを用いて, 地域レベルの情報に依存する従来の手法を超越して, クロスモーダル検索タスクにおける最先端性能を実現する。

In recent years, pre-trained multimodal large models have attracted widespread attention due to their outstanding performance in various multimodal applications. Nonetheless, the extensive computational resources and vast datasets required for their training present significant hurdles for deployment in environments with limited computational resources. To address this challenge, we propose a novel dynamic self-adaptive multiscale distillation from pre-trained multimodal large model for efficient cross-modal representation learning for the first time. Unlike existing distillation methods, our strategy employs a multiscale perspective, enabling the extraction structural knowledge across from the pre-trained multimodal large model. Ensuring that the student model inherits a comprehensive and nuanced understanding of the teacher knowledge. To optimize each distillation loss in a balanced and efficient manner, we propose a dynamic self-adaptive distillation loss balancer, a novel component eliminating the need for manual loss weight adjustments and dynamically balances each loss item during the distillation process. Our methodology streamlines pre-trained multimodal large models using only their output features and original image-level information, requiring minimal computational resources. This efficient approach is suited for various applications and allows the deployment of advanced multimodal technologies even in resource-limited settings. Extensive experiments has demonstrated that our method maintains high performance while significantly reducing model complexity and training costs. Moreover, our distilled student model utilizes only image-level information to achieve state-of-the-art performance on cross-modal retrieval tasks, surpassing previous methods that relied on region-level information.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# Gasformer: 光ガスイメージングにおける家畜からのメタン排出を分離するトランスフォーマーベースのアーキテクチャ

Gasformer: A Transformer-based Architecture for Segmenting Methane Emissions from Livestock in Optical Gas Imaging ( http://arxiv.org/abs/2404.10841v1 )

ライセンス: Link先を確認
Toqi Tahamid Sarker, Mohamed G Embaby, Khaled R Ahmed, Amer AbuGhazaleh, (参考訳) 家畜、特に牛からのメタンの排出は、気候変動に大きく貢献する。 世界の人口と家畜製品の需要が増大するにつれて、効果的なメタン排出量削減戦略が不可欠である。 本稿では,家畜からの低流量メタン排出量を検出するためのセマンティックセグメンテーションアーキテクチャであるGasformerを紹介する。 FLIR GF77 OGIカメラで捉えた2つのユニークなデータセットを示す。 GasformerはMix Vision TransformerエンコーダとLight-Hamデコーダを利用して、マルチスケールの機能とセグメンテーションマップを生成する。 Gasformerは両方のデータセットにおける他の最先端モデルよりも優れており、制御された実世界のシナリオにおけるメタンプラムの検出とセグメンテーションの有効性を実証している。 家畜のデータセットでは、ガスホルダーは88.56%のmIoUを達成し、他の最先端モデルを上回っている。 資料はgithub.com/toqitahamid/Gasformerで入手できる。

Methane emissions from livestock, particularly cattle, significantly contribute to climate change. Effective methane emission mitigation strategies are crucial as the global population and demand for livestock products increase. We introduce Gasformer, a novel semantic segmentation architecture for detecting low-flow rate methane emissions from livestock, and controlled release experiments using optical gas imaging. We present two unique datasets captured with a FLIR GF77 OGI camera. Gasformer leverages a Mix Vision Transformer encoder and a Light-Ham decoder to generate multi-scale features and refine segmentation maps. Gasformer outperforms other state-of-the-art models on both datasets, demonstrating its effectiveness in detecting and segmenting methane plumes in controlled and real-world scenarios. On the livestock dataset, Gasformer achieves mIoU of 88.56%, surpassing other state-of-the-art models. Materials are available at: github.com/toqitahamid/Gasformer.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# フェデレーションラーニングを用いた分散IoTネットワークにおける教師なし話者ダイアリゼーション

Unsupervised Speaker Diarization in Distributed IoT Networks Using Federated Learning ( http://arxiv.org/abs/2404.10842v1 )

ライセンス: Link先を確認
Amit Kumar Bhuyan, Hrishikesh Dutta, Subir Biswas, (参考訳) 本稿では,ネットワーク型IoTオーディオデバイスを対象とした,計算効率のよい分散話者ダイアリゼーションフレームワークを提案する。 本研究は,大規模オーディオデータベースを必要とせずに会話に参加する参加者を識別するフェデレート学習モデルを提案する。 話者埋め込みのコサイン類似性に依存するフェデレートラーニングモデルに対して、教師なしオンライン更新機構を提案する。 さらに, ダイアリゼーションシステムでは, 話者変化検出の課題を解決している。 ホテルリングの t-squared Statistic と Bayesian Information Criterion を用いた教師なしセグメンテーション手法。 この新しいアプローチでは、検出された準サイレンスの周りに話者変化検出が偏り、ミス検出と誤検出率の間のトレードオフの深刻度が低下する。 さらに、話者のフレーム単位の識別による計算オーバーヘッドを減らした。 教師なしの音声セグメントのクラスタリング。 その結果,非IID音声データの存在下でのトレーニング手法の有効性が示された。 また、計算オーバーヘッドを低減しつつ、セグメント化段階での誤検出と誤検出の低減も大幅に改善された。 精度の向上と計算コストの削減により、このメカニズムは分散IoTオーディオネットワークにおけるリアルタイム話者ダイアリゼーションに適している。

This paper presents a computationally efficient and distributed speaker diarization framework for networked IoT-style audio devices. The work proposes a Federated Learning model which can identify the participants in a conversation without the requirement of a large audio database for training. An unsupervised online update mechanism is proposed for the Federated Learning model which depends on cosine similarity of speaker embeddings. Moreover, the proposed diarization system solves the problem of speaker change detection via. unsupervised segmentation techniques using Hotelling's t-squared Statistic and Bayesian Information Criterion. In this new approach, speaker change detection is biased around detected quasi-silences, which reduces the severity of the trade-off between the missed detection and false detection rates. Additionally, the computational overhead due to frame-by-frame identification of speakers is reduced via. unsupervised clustering of speech segments. The results demonstrate the effectiveness of the proposed training method in the presence of non-IID speech data. It also shows a considerable improvement in the reduction of false and missed detection at the segmentation stage, while reducing the computational overhead. Improved accuracy and reduced computational cost makes the mechanism suitable for real-time speaker diarization across a distributed IoT audio network.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 非ユークリッド演算子のデータ駆動深層学習のための幾何学的ニューラル演算子(GNP)

Geometric Neural Operators (GNPs) for Data-Driven Deep Learning of Non-Euclidean Operators ( http://arxiv.org/abs/2404.10843v1 )

ライセンス: Link先を確認
Blaine Quackenbush, Paul J. Atzberger, (参考訳) 演算子のデータ駆動深層学習における幾何学的寄与を考慮に入れた幾何学的ニューラルネットワーク(GNP)を導入する。 GNPの活用方法を示す。 (i)計量や曲率などの幾何学的性質を推定する (ii)多様体上の偏微分方程式(PDE)を近似する (iii)ラプラス・ベルトラミ作用素(LB)の解写像を学習し、 (iv) 多様体形状を特定するためのベイズ逆問題の解法。 この方法では、ポイントクラウド表現を含む一般的な形状のジオメトリを処理できる。 開発されたGNPは、演算子のデータ駆動学習における幾何学の役割を取り入れるためのアプローチを提供する。

We introduce Geometric Neural Operators (GNPs) for accounting for geometric contributions in data-driven deep learning of operators. We show how GNPs can be used (i) to estimate geometric properties, such as the metric and curvatures, (ii) to approximate Partial Differential Equations (PDEs) on manifolds, (iii) learn solution maps for Laplace-Beltrami (LB) operators, and (iv) to solve Bayesian inverse problems for identifying manifold shapes. The methods allow for handling geometries of general shape including point-cloud representations. The developed GNPs provide approaches for incorporating the roles of geometry in data-driven learning of operators.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# マイクロUAVSwarmにおけるコンテンツ拡散のためのトップkマルチタスク帯域学習

Top-k Multi-Armed Bandit Learning for Content Dissemination in Swarms of Micro-UAVs ( http://arxiv.org/abs/2404.10845v1 )

ライセンス: Link先を確認
Amit Kumar Bhuyan, Hrishikesh Dutta, Subir Biswas, (参考訳) 本稿では, マイクロ無人航空機(UAV)による高度コンテンツ管理システムを提案する。 携帯電話のインフラがない状態では、固定型および移動型UAVのハイブリッドネットワークを配置し、孤立したコミュニティに重要なコンテンツアクセスを提供する。 静的アンカーUAVは、垂直リンクと横リンクの両方を備え、アジャイルなマイクロフェリーUAVは、横リンクと大きなモビリティを備え、様々なコミュニティのユーザーにリーチする。 第一の目的は、コンテンツアクセシビリティを最大化するためにキャッシュポリシーを動的に学習する適応型コンテンツ配信システムを開発することである。 本稿では,UAVキャッシュ決定のための分散型Top-k Multi-Armed Bandit (Top-k MAB)学習手法を提案する。 提案手法は,UAV間の共有情報を活用することで,コンテンツの重複コピーをアルゴリズム的に削減する選択キャッシングアルゴリズムを含む。 また,Top-k MAB学習と選択キャッシングアルゴリズムにより,学習プロセスの適応化を図り,システム性能を向上できることを示した。 提案するキャッシングフレームワークの機能検証と性能評価を,ネットワークサイズ,マイクロファーリングUAVの群集,不均一な人気分布で行う。

In communication-deprived disaster scenarios, this paper introduces a Micro-Unmanned Aerial Vehicle (UAV)- enhanced content management system. In the absence of cellular infrastructure, this system deploys a hybrid network of stationary and mobile UAVs to offer vital content access to isolated communities. Static anchor UAVs equipped with both vertical and lateral links cater to local users, while agile micro-ferrying UAVs, equipped with lateral links and greater mobility, reach users in various communities. The primary goal is to devise an adaptive content dissemination system that dynamically learns caching policies to maximize content accessibility. The paper proposes a decentralized Top-k Multi-Armed Bandit (Top-k MAB) learning approach for UAV caching decisions, accommodating geotemporal disparities in content popularity and diverse content demands. The proposed mechanism involves a Selective Caching Algorithm that algorithmically reduces redundant copies of the contents by leveraging the shared information between the UAVs. It is demonstrated that Top-k MAB learning, along with selective caching algorithm, can improve system performance while making the learning process adaptive. The paper does functional verification and performance evaluation of the proposed caching framework under a wide range of network size, swarm of micro-ferrying UAVs, and heterogeneous popularity distributions.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# ビジュアルリッチ文書における関係抽出の強化のためのLayoutLMv3に基づくモデル

A LayoutLMv3-Based Model for Enhanced Relation Extraction in Visually-Rich Documents ( http://arxiv.org/abs/2404.10848v1 )

ライセンス: Link先を確認
Wiam Adnan, Joel Tang, Yassine Bel Khayat Zouggari, Seif Edinne Laatiri, Laurent Lam, Fabien Caspani, (参考訳) 文書理解は自然言語処理(NLP)の進化する分野である。 特に、視覚的・空間的特徴は、原文自体に加えて不可欠であり、視覚文書理解(VDU)分野において、複数のマルチモーダルモデルが開発された。 しかし、キー情報抽出(KIE)を中心に研究が進められているが、識別されたエンティティ間の関係抽出(RE)はまだ検討中である。 例えば、REはエンティティを再編成したり、ドキュメント内のデータの包括的な階層を得るのに不可欠です。 本稿では、LayoutLMv3から初期化されたREが、FUNSDおよびCORDデータセット上のビジュアルリッチ文書(VRD)に適用したREを、特定の事前学習をせずに、かつ少ないパラメータで、現在の最先端結果にマッチまたは上向くことができるモデルを提案する。 また、FUNSDを用いた広範囲なアブレーション研究を行い、特定の特徴とモデル化の選択がパフォーマンスに与える影響を強調した。

Document Understanding is an evolving field in Natural Language Processing (NLP). In particular, visual and spatial features are essential in addition to the raw text itself and hence, several multimodal models were developed in the field of Visual Document Understanding (VDU). However, while research is mainly focused on Key Information Extraction (KIE), Relation Extraction (RE) between identified entities is still under-studied. For instance, RE is crucial to regroup entities or obtain a comprehensive hierarchy of data in a document. In this paper, we present a model that, initialized from LayoutLMv3, can match or outperform the current state-of-the-art results in RE applied to Visually-Rich Documents (VRD) on FUNSD and CORD datasets, without any specific pre-training and with fewer parameters. We also report an extensive ablation study performed on FUNSD, highlighting the great impact of certain features and modelization choices on the performances.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 人道走行学習のためのエンド・ツー・エンドトレーニング・テストゲーム化フレームワーク

End-To-End Training and Testing Gamification Framework to Learn Human Highway Driving ( http://arxiv.org/abs/2404.10849v1 )

ライセンス: Link先を確認
Satya R. Jaladi, Zhimin Chen, Narahari R. Malayanur, Raja M. Macherla, Bing Li, (参考訳) 現在の自律スタックはモジュール化されており、手作りのフレームワークにおける認識、意思決定、制御で構成されています。 人工知能(AI)とコンピューティングリソースの進歩により、研究者らは自動運転車のためのエンドツーエンドAIの開発を推し進めている。 本研究では,人間の運転能力から学習することで,自動運転車走行のためのゲームベースのエンド・ツー・エンドの学習・テストフレームワークを提案する。 まず,人気ゲームであるGrand Theft Auto V (GTA V) を用いて,提案したプログラム可能なラベルを用いて高速道路運転データを収集する。 そして、エンド・ツー・エンドのアーキテクチャは、ゲーム画面の画像により車両を制御する操舵及びスロットル値を予測する。 予測制御値は仮想コントローラを介してゲームに送信され、車両を車線内に保持し、道路上の他の車両との衝突を避ける。 提案手法はGTA Vゲームにおいて検証され,人間の運転スキルを学習するためのエンドツーエンドゲーム化フレームワークの有効性が実証された。

The current autonomous stack is well modularized and consists of perception, decision making and control in a handcrafted framework. With the advances in artificial intelligence (AI) and computing resources, researchers have been pushing the development of end-to-end AI for autonomous driving, at least in problems of small searching space such as in highway scenarios, and more and more photorealistic simulation will be critical for efficient learning. In this research, we propose a novel game-based end-to-end learning and testing framework for autonomous vehicle highway driving, by learning from human driving skills. Firstly, we utilize the popular game Grand Theft Auto V (GTA V) to collect highway driving data with our proposed programmable labels. Then, an end-to-end architecture predicts the steering and throttle values that control the vehicle by the image of the game screen. The predicted control values are sent to the game via a virtual controller to keep the vehicle in lane and avoid collisions with other vehicles on the road. The proposed solution is validated in GTA V games, and the results demonstrate the effectiveness of this end-to-end gamification framework for learning human driving skills.
翻訳日:2024-04-18 18:12:17 公開日:2024-04-16
# 線形二次レギュレータのサンプル複雑さ:強化学習レンズ

Sample Complexity of the Linear Quadratic Regulator: A Reinforcement Learning Lens ( http://arxiv.org/abs/2404.10851v1 )

ライセンス: Link先を確認
Amirreza Neshaei Moghaddam, Alex Olshevsky, Bahman Gharesifard, (参考訳) 未知パラメータを持つ離散時間LQR問題の関数評価を2点勾配推定に頼らずに,$\widetilde{\mathcal{O}}(1/\varepsilon)$$$\varepsilon$-optimalityを実現した最初のアルゴリズムを提供する。 これらの推定は多くの設定において非現実的であることが知られており、それらは2つの異なるポリシーに対してランダムに選択される全く同じ初期化を使用することに依存している。 我々の結果は、2点勾配推定の領域外にある既存の文献を著しく改善し、$\widetilde{\mathcal{O}}(1/\varepsilon^2)$レートに導かれるか、安定性の仮定に強く依存する。

We provide the first known algorithm that provably achieves $\varepsilon$-optimality within $\widetilde{\mathcal{O}}(1/\varepsilon)$ function evaluations for the discounted discrete-time LQR problem with unknown parameters, without relying on two-point gradient estimates. These estimates are known to be unrealistic in many settings, as they depend on using the exact same initialization, which is to be selected randomly, for two different policies. Our results substantially improve upon the existing literature outside the realm of two-point gradient estimates, which either leads to $\widetilde{\mathcal{O}}(1/\varepsilon^2)$ rates or heavily relies on stability assumptions.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# クリプティックシークエンス複雑度推定法

Methods to Estimate Cryptic Sequence Complexity ( http://arxiv.org/abs/2404.10854v1 )

ライセンス: Link先を確認
Matthew Andres Moreno, (参考訳) 複雑度は人工生命系における重要な品質である。 他の評価の次元とともに、複雑性の尺度として適合性に寄与するゲノムサイトを定量化することが一般的である。 しかしながら、リッチな生物相互作用を含む暗黙の複製基準を持つモデルにおけるフィットネスアッセイの感度に対する制限は、個々の検出可能性のしきい値以下に小さなフィットネス効果を寄与する「暗号的」適応部位の可能性をもたらした。 本稿では,デジタルゲノム内の暗号適応部位を定量化するために,ノックアウトに基づく3つの方法を提案する。 本研究では, サイト適合性を考慮した簡易ゲノムモデルを用いて, これらの手法の初期試験を行った。 これらの限定試験では、推定結果は、基底真理暗号シーケンスの複雑さをよく反映している。 提案された研究は、生物の適合性に関する高価なインサイトアセスメントを必要とする人など、生命系全体にわたる複雑性分析の解決、厳格化、トラクタビリティを向上させる新しい方法やソフトウェアツールの開発に向けた最初のステップを提供する。

Complexity is a signature quality of interest in artificial life systems. Alongside other dimensions of assessment, it is common to quantify genome sites that contribute to fitness as a complexity measure. However, limitations to the sensitivity of fitness assays in models with implicit replication criteria involving rich biotic interactions introduce the possibility of difficult-to-detect ``cryptic'' adaptive sites, which contribute small fitness effects below the threshold of individual detectability or involve epistatic redundancies. Here, we propose three knockout-based assay procedures designed to quantify cryptic adaptive sites within digital genomes. We report initial tests of these methods on a simple genome model with explicitly configured site fitness effects. In these limited tests, estimation results reflect ground truth cryptic sequence complexities well. Presented work provides initial steps toward development of new methods and software tools that improve the resolution, rigor, and tractability of complexity analyses across alife systems, particularly those requiring expensive in situ assessments of organism fitness.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# Pinus taedaの断面画像の公開データセットUruDendro

UruDendro, a public dataset of cross-section images of Pinus taeda ( http://arxiv.org/abs/2404.10856v1 )

ライセンス: Link先を確認
Henry Marichal, Diego Passarella, Christine Lucas, Ludmila Profumo, Verónica Casaravilla, María Noel Rocha Galli, Serrana Ambite, Gregory Randall, (参考訳) 画像解析を用いた樹木境界や解剖学的特徴の自動検出は、マシンラーニングや画像技術の発展とともに、デンドロクロノロジーコミュニティからの要求が増大し、過去10年間に大きく進歩した。 本論文は,ウルグアイ北部で栽培されたタエダ林の横断面をスキャンした64枚の画像のデータベースを公開し,その樹齢は17~24歳である。 このコレクションには、照明と表面調製のバリエーション、真菌感染(青色の染色)、結び目の形成、外輪の欠損または中断、放射分解など、自動リング検出のためのいくつかの難しい特徴が含まれている。 このデータセットは、自動ツリーリング検出アルゴリズムの開発とテストに使用することができる。 本稿では, 樹冠年代学コミュニティにおいて, 初期木と後期木との明確な定義を示す木々の断面において, 完全な年輪を識別し, マークするクロス・セクション・ツリー・リング検出法(CS-TRD)について述べる。 CS-TRD性能とUruDendroデータセット上の全環の真理手動記述との比較を行った。 CS-TRDソフトウェアは、平均Fスコアが89%、RMSEエラーが5.27pxのリングを画像当たり20秒未満で識別した。 最後に、検出された木の輪で囲まれた同じ面積の円の \emph{equivalent radius} を用いて、環の成長のロバストな測度を提案する。 本研究は,針葉樹類の環を自動的に検出する高速で低コストな方法であるデンドロクロノロジーのツールボックス,特に全断面を用いた直径成長速度と茎横断面積の計測に寄与する。

The automatic detection of tree-ring boundaries and other anatomical features using image analysis has progressed substantially over the past decade with advances in machine learning and imagery technology, as well as increasing demands from the dendrochronology community. This paper presents a publicly available database of 64 scanned images of transverse sections of commercially grown Pinus taeda trees from northern Uruguay, ranging from 17 to 24 years old. The collection contains several challenging features for automatic ring detection, including illumination and surface preparation variation, fungal infection (blue stains), knot formation, missing cortex or interruptions in outer rings, and radial cracking. This dataset can be used to develop and test automatic tree ring detection algorithms. This paper presents to the dendrochronology community one such method, Cross-Section Tree-Ring Detection (CS-TRD), which identifies and marks complete annual rings in cross-sections for tree species presenting a clear definition between early and latewood. We compare the CS-TRD performance against the ground truth manual delineation of all rings over the UruDendro dataset. The CS-TRD software identified rings with an average F-score of 89% and RMSE error of 5.27px for the entire database in less than 20 seconds per image. Finally, we propose a robust measure of the ring growth using the \emph{equivalent radius} of a circle having the same area enclosed by the detected tree ring. Overall, this study contributes to the dendrochronologist's toolbox of fast and low-cost methods to automatically detect rings in conifer species, particularly for measuring diameter growth rates and stem transverse area using entire cross-sections.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# D3CODE: 攻撃性の検出と評価に関する文化横断データにおける異同の解消

D3CODE: Disentangling Disagreements in Data across Cultures on Offensiveness Detection and Evaluation ( http://arxiv.org/abs/2404.10857v1 )

ライセンス: Link先を確認
Aida Mostafazadeh Davani, Mark Díaz, Dylan Baker, Vinodkumar Prabhakaran, (参考訳) 人間のアノテーションは言語技術において重要な役割を担っているが、アノテータの主観性はデータ収集において長い間見過ごされてきた。 この問題を批判的に研究した最近の研究は、しばしば西洋の文脈で行われ、年齢、性別、人種間の差異だけを文書化している。 その結果、NLPによる主観性の研究は、人口統計学的グループ内の個人が様々な価値観を持つ可能性があるという事実を軽視し、集団規範を超えた認識に影響を及ぼす可能性がある。 これらの考察をNLPパイプラインに効果的に組み込むには、様々な社会的・文化的グループからの広範な並列アノテーションを持つデータセットが必要である。 本稿では,21か国にまたがる性別と年齢のバランスの取れた4K以上のアノテータがアノテートした4K以上の文で,攻撃的言語に対する並列アノテーションの大規模横断的データセットである「データセットデータセット」について紹介する。 このデータセットには、ケア、平等、比例、権威、忠誠、純粋性の6つの道徳的基礎に沿って収集されたアノテーターの道徳的価値が含まれている。 分析の結果,アノテータの知覚は個々の道徳的価値観によって形成され,多元的・文化的に敏感なNLPモデルを構築する上で重要な知見が得られた。

While human annotations play a crucial role in language technologies, annotator subjectivity has long been overlooked in data collection. Recent studies that have critically examined this issue are often situated in the Western context, and solely document differences across age, gender, or racial groups. As a result, NLP research on subjectivity have overlooked the fact that individuals within demographic groups may hold diverse values, which can influence their perceptions beyond their group norms. To effectively incorporate these considerations into NLP pipelines, we need datasets with extensive parallel annotations from various social and cultural groups. In this paper we introduce the \dataset dataset: a large-scale cross-cultural dataset of parallel annotations for offensive language in over 4.5K sentences annotated by a pool of over 4k annotators, balanced across gender and age, from across 21 countries, representing eight geo-cultural regions. The dataset contains annotators' moral values captured along six moral foundations: care, equality, proportionality, authority, loyalty, and purity. Our analyses reveal substantial regional variations in annotators' perceptions that are shaped by individual moral values, offering crucial insights for building pluralistic, culturally sensitive NLP models.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# 言語モデルから拡散分布を強制する

Forcing Diffuse Distributions out of Language Models ( http://arxiv.org/abs/2404.10859v1 )

ライセンス: Link先を確認
Yiming Zhang, Avi Schwarzschild, Nicholas Carlini, Zico Kolter, Daphne Ippolito, (参考訳) ユーザ命令に従うように特別に訓練されているにもかかわらず、今日の言語モデルは、ランダムなアウトプットを生成するように指示された場合、パフォーマンスが良くない。 例えば、1から10のLlama-2-13B-chatが不均等に5番を選ぶように促された場合、Mistral-7B-Instructは米国人口の40倍の頻度でAveryを選ぶ。 これらの言語モデルが、言語モデル支援データセット構築のような出力の多様性が不可欠である実世界のタスクに使用される場合、有効な選択よりも拡散分布を生成できないことが大きなハードルとなる。 本研究では,言語モデルが有効な結果に対して拡散した分布を出力することを奨励する微調整手法を提案する。 提案手法は,様々なタスクや分布にまたがって一般化され,人間の介入がほとんどない合成データセット生成において,大規模言語モデルを実用的なものにする。

Despite being trained specifically to follow user instructions, today's language models perform poorly when instructed to produce random outputs. For example, when prompted to pick a number uniformly between one and ten Llama-2-13B-chat disproportionately favors the number five, and when tasked with picking a first name at random, Mistral-7B-Instruct chooses Avery 40 times more often than we would expect based on the U.S. population. When these language models are used for real-world tasks where diversity of outputs is crucial, such as language model assisted dataset construction, their inability to produce diffuse distributions over valid choices is a major hurdle. In this work, we propose a fine-tuning method that encourages language models to output distributions that are diffuse over valid outcomes. The methods we introduce generalize across a variety of tasks and distributions and make large language models practical for synthetic dataset generation with little human intervention.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# ウェハスケールにおける追跡可能なエージェントベース進化モデル

Trackable Agent-based Evolution Models at Wafer Scale ( http://arxiv.org/abs/2404.10861v1 )

ライセンス: Link先を確認
Matthew Andres Moreno, Connor Yang, Emily Dolson, Luis Zaman, (参考訳) コンピューティングハードウェアの継続的な改善は、進化生物学や人工生命における大きなオープンな問題、例えば個体の遷移、エコ進化力学、希少な進化現象をシリコモデルでモデル化する能力の変容を図っている。 850,000プロセッサのCerebras Wafer Scale Engine(WSE)のような、ML/AI指向のハードウェアアクセラレータが新たに登場した。 しかし、これらのプラットフォームの大きなプロセッサ数を効率的に活用する情報進化実験の実践的な課題は依然として残っている。 本稿では,WSEプラットフォーム上でのエージェントベースの進化から系統情報を抽出する問題に焦点をあてる。 この目的は、シリコ系統追跡において分散化するために、重要な改良を促したとここで報告されている。 これらの改善により、オーダー・オブ・マグニチュードのパフォーマンスが向上する。 WSEハードウェアのための非同期島型遺伝的アルゴリズム(GA)フレームワークも提案する。 シミュレーションおよびオンハードのGAベンチマークでは、単純な追跡可能なエージェントモデルで、1分間に100万世代以上、人口規模で1600万のエージェントに到達した。 本研究は,これらの治験の系統的再構成を検証し,根底にある進化状態の推測に適合することを示す。 特に,適応力学を有効化して動作を区別する明快な系統信号のウェーハスケールシミュレーションからの抽出を実演する。 これらのベンチマークと検証試験は、効率的かつ観測可能な、高度にスケーラブルなエージェントベースの進化シミュレーションの強い可能性を反映している。 開発された能力は、これまで難解だった研究課題のまったく新しいクラスに到達し、進化生物学や人工生命のコミュニティにおける様々な新興高性能コンピューティングプラットフォームにおけるさらなる探索に役立ちます。

Continuing improvements in computing hardware are poised to transform capabilities for in silico modeling of cross-scale phenomena underlying major open questions in evolutionary biology and artificial life, such as transitions in individuality, eco-evolutionary dynamics, and rare evolutionary events. Emerging ML/AI-oriented hardware accelerators, like the 850,000 processor Cerebras Wafer Scale Engine (WSE), hold particular promise. However, practical challenges remain in conducting informative evolution experiments that efficiently utilize these platforms' large processor counts. Here, we focus on the problem of extracting phylogenetic information from agent-based evolution on the WSE platform. This goal drove significant refinements to decentralized in silico phylogenetic tracking, reported here. These improvements yield order-of-magnitude performance improvements. We also present an asynchronous island-based genetic algorithm (GA) framework for WSE hardware. Emulated and on-hardware GA benchmarks with a simple tracking-enabled agent model clock upwards of 1 million generations a minute for population sizes reaching 16 million agents. We validate phylogenetic reconstructions from these trials and demonstrate their suitability for inference of underlying evolutionary conditions. In particular, we demonstrate extraction, from wafer-scale simulation, of clear phylometric signals that differentiate runs with adaptive dynamics enabled versus disabled. Together, these benchmark and validation trials reflect strong potential for highly scalable agent-based evolution simulation that is both efficient and observable. Developed capabilities will bring entirely new classes of previously intractable research questions within reach, benefiting further explorations within the evolutionary biology and artificial life communities across a variety of emerging high-performance computing platforms.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# 語彙のない画像分類とセマンティックセグメンテーション

Vocabulary-free Image Classification and Semantic Segmentation ( http://arxiv.org/abs/2404.10864v1 )

ライセンス: Link先を確認
Alessandro Conti, Enrico Fini, Massimiliano Mancini, Paolo Rota, Yiming Wang, Elisa Ricci, (参考訳) 大きな視覚言語モデルは、画像分類とセマンティックセグメンテーションパラダイムに革命をもたらした。 しかし、それらは典型的には、テキストプロンプトを構成するテスト時に、事前に定義されたカテゴリ、または語彙のセットを仮定する。 この仮定は、未知または進化するセマンティックコンテキストを持つシナリオでは現実的ではない。 本稿では,この課題に対処し,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語によるセマンティック空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。 VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。 VICに対処するために,事前学習された視覚言語モデルと外部データベースを利用する訓練不要なCaSED(Caegory Search from external Database)を提案する。 CaSEDはまず、データベースの最も意味的に類似したキャプションから候補カテゴリの集合を抽出し、同じ視覚言語モデルに基づいて最適な候補カテゴリに画像を割り当てる。 さらに, 画像領域を分類する粗いセグメンテーションマスクを生成するために, CaSEDを局所的に適用できることを示し, 語彙自由セマンティックセグメンテーションの課題を紹介した。 CaSEDとその変種は、はるかに少ないパラメータを使用しながら、分類とセマンティックセグメンテーションのベンチマークにおいて、他のより複雑な視覚言語モデルよりも優れている。

Large vision-language models revolutionized image classification and semantic segmentation paradigms. However, they typically assume a pre-defined set of categories, or vocabulary, at test time for composing textual prompts. This assumption is impractical in scenarios with unknown or evolving semantic context. Here, we address this issue and introduce the Vocabulary-free Image Classification (VIC) task, which aims to assign a class from an unconstrained language-induced semantic space to an input image without needing a known vocabulary. VIC is challenging due to the vastness of the semantic space, which contains millions of concepts, including fine-grained categories. To address VIC, we propose Category Search from External Databases (CaSED), a training-free method that leverages a pre-trained vision-language model and an external database. CaSED first extracts the set of candidate categories from the most semantically similar captions in the database and then assigns the image to the best-matching candidate category according to the same vision-language model. Furthermore, we demonstrate that CaSED can be applied locally to generate a coarse segmentation mask that classifies image regions, introducing the task of Vocabulary-free Semantic Segmentation. CaSED and its variants outperform other more complex vision-language models, on classification and semantic segmentation benchmarks, while using much fewer parameters.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# OSR-ViT: オープンセットオブジェクトの検出と発見のためのシンプルでモジュール化されたフレームワーク

OSR-ViT: A Simple and Modular Framework for Open-Set Object Detection and Discovery ( http://arxiv.org/abs/2404.10865v1 )

ライセンス: Link先を確認
Matthew Inkawhich, Nathan Inkawhich, Hao Yang, Jingyang Zhang, Randolph Linderman, Yiran Chen, (参考訳) オブジェクト検出器は、オープンワールドのデプロイ中に \textit{novel} オブジェクトを検出してフラグを付ける能力は、多くの現実世界のアプリケーションにとって重要である。 残念なことに、今日のオープンオブジェクト検出の作業の多くは非結合であり、未知のオブジェクトリコール \textit{in addition} known-class accuracy を優先するアプリケーションに適切に対処することができない。 このギャップを埋めるために、Open-Set Object Detection and Discovery (OSODD)と呼ばれる新しいタスクを提案し、解決策として、ViT機能付きOpen-Set Regions(OSR-ViT)検出フレームワークを提案する。 OSR-ViTは、クラスに依存しない提案ネットワークと強力なViTベースの分類器を組み合わせる。 そのモジュール設計は最適化を単純化し、ユーザがアプリケーションに最も適するように提案ソリューションと機能抽出器を簡単に交換できる。 多面的評価プロトコルを用いてOSR-ViTは最先端の教師付き手法をはるかに超える性能レベルが得られることを示す。 また、トレーニングデータの一部を用いて教師付きベースラインよりも優れた低データ設定が可能である。

An object detector's ability to detect and flag \textit{novel} objects during open-world deployments is critical for many real-world applications. Unfortunately, much of the work in open object detection today is disjointed and fails to adequately address applications that prioritize unknown object recall \textit{in addition to} known-class accuracy. To close this gap, we present a new task called Open-Set Object Detection and Discovery (OSODD) and as a solution propose the Open-Set Regions with ViT features (OSR-ViT) detection framework. OSR-ViT combines a class-agnostic proposal network with a powerful ViT-based classifier. Its modular design simplifies optimization and allows users to easily swap proposal solutions and feature extractors to best suit their application. Using our multifaceted evaluation protocol, we show that OSR-ViT obtains performance levels that far exceed state-of-the-art supervised methods. Our method also excels in low-data settings, outperforming supervised baselines using a fraction of the training data.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# 自然電離放射線による量子回路基板内エネルギー沈着の分光計測とモデル

Spectroscopic measurements and models of energy deposition in the substrate of quantum circuits by natural ionizing radiation ( http://arxiv.org/abs/2404.10866v1 )

ライセンス: Link先を確認
Joseph W. Fowler, Paul Szypryt, Raymond Bunker, Ellen R. Edwards, Ian Fogarty Florang, Jiansong Gao, Andrea Giachero, Shannon F. Hoogerheide, Ben Loer, H. Pieter Mumm, Nathan Nakamura, Galen C. O'Neil, John L. Orrell, Elizabeth M. Scott, Jason Stevens, Daniel S. Swetz, Brent A. VanDevender, Michael Vissers, Joel N. Ullom, (参考訳) 自然に発生する背景放射は、超伝導量子ビットにおける相関したデコヒーレンス現象の源であり、誤り訂正スキームに挑戦する。 超伝導量子ビット系の環境であるミリケルビン冷凍機内におけるシリコン基板の背景事象のブロードバンド,分光計測を行った。 厚さ0.5mm, 1.5mmのシリコン基板の背景スペクトルを測定し, 平均発生速度と集積電力デポジションを得た。 25mm^2領域とより薄い基板では、これらの値は毎秒0.023イベントと4.9keV/sであり、少なくとも40keVを蓄積する事象を数えている。 背景スペクトルはほとんど特徴がない。 シリコン基板の厚さ0.5mmでは、100keVから3MeVの間で4万倍の強度が低下する。 我々は,地球外ガンマ線フラックスの測定,宇宙線フラックスのモデル,クレオスタットの粗いモデル,放射-輸送シミュレーションに基づいて,低温の観測値が予測値とよく一致していることを発見した。 シリコン基板の背景スペクトルを予測するために自由パラメータは不要である。 測定値と予測値との良好な一致により、地球と宇宙の背景源の相対的な寄与と、それらの基質の厚さへの依存性を評価することができる。 超伝導マイクロ共振器を用いて, 簡単に検出可能な電気信号に堆積エネルギーを伝達する分光計測を行った。 放射性同位体からのガンマ線放射は、E<1.5 MeVを堆積するほとんどの事象の原因であり、一方、宇宙線二次粒子の核子は、より多くのエネルギーを蓄積するほとんどの事象を引き起こす。 これらの結果は、背景放射が量子回路に与える影響を減らすためのいくつかの経路を示唆している。

Naturally occurring background radiation is a source of correlated decoherence events in superconducting qubits that will challenge error-correction schemes. To characterize the radiation environment in an unshielded laboratory, we performed broadband, spectroscopic measurements of background events in silicon substrates located inside a millikelvin refrigerator, an environment representative of superconducting qubit systems. We measured the background spectra in silicon substrates of two thicknesses, 0.5 mm and 1.5 mm, and obtained the average event rate and the integrated power deposition. In a 25 mm^2 area and the thinner substrate, these values are 0.023 events per second and 4.9 keV/s, counting events that deposit at least 40 keV. We find the background spectrum to be nearly featureless. Its intensity decreases by a factor of 40,000 between 100 keV and 3 MeV for silicon substrates 0.5 mm thick. We find the cryogenic measurements to be in good agreement with predictions based on measurements of the terrestrial gamma-ray flux, published models of cosmic-ray fluxes, a crude model of the cryostat, and radiation-transport simulations. No free parameters are required to predict the background spectra in the silicon substrates. The good agreement between measurements and predictions allow assessment of the relative contributions of terrestrial and cosmic background sources and their dependence on substrate thickness. Our spectroscopic measurements are performed with superconducting microresonators that transduce deposited energy to a readily detectable electrical signal. We find that gamma-ray emissions from radioisotopes are responsible for the majority of events depositing E<1.5 MeV, while nucleons among the cosmic-ray secondary particles cause most events that deposit more energy. These results suggest several paths to reducing the impact of background radiation on quantum circuits.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# 求人市場を考えるためのコースレコメンダシステム

Course Recommender Systems Need to Consider the Job Market ( http://arxiv.org/abs/2404.10876v1 )

ライセンス: Link先を確認
Jibril Frej, Anna Dai, Syrielle Montariol, Antoine Bosselut, Tanja Käser, (参考訳) 現在のコースレコメンデータシステムは、主に学習者同士の相互作用、コースの内容、学習者の好み、インストラクター、制度、評価、レビューといった補足的なコースの詳細を活用してレコメンデーションを行う。 しかし、これらのシステムは、求人市場の進化するスキル需要という重要な側面をしばしば見落としている。 本稿では,職業市場のスキル要求を取り入れたコースレコメンデーションシステムの構築を目指して,産業界と連携して研究を行う学術研究者の視点に焦点を当てる。 求人市場の急激な変化と研究の現状を踏まえ、これらの要求を効果的に解決するためのコースレコメンデータシステムの基本的特性を概説する。 本研究は、求人情報から教師なしのスキル抽出、コース記述、履歴書、学習者目標と求人市場に対応するレコメンデーションの予測、このアライメントを評価するためのメトリクスの設計など、この目的がもたらす課題や研究課題にも及んでいる。 さらに,スキル抽出に大規模言語モデル(LLM)を,ジョブ市場に合わせて強化学習(RL)を併用した,既存のリコメンデータシステムに対処する初期システムを導入する。 オープンソースデータを用いて実験結果を提供し,その有効性を実証する。

Current course recommender systems primarily leverage learner-course interactions, course content, learner preferences, and supplementary course details like instructor, institution, ratings, and reviews, to make their recommendation. However, these systems often overlook a critical aspect: the evolving skill demand of the job market. This paper focuses on the perspective of academic researchers, working in collaboration with the industry, aiming to develop a course recommender system that incorporates job market skill demands. In light of the job market's rapid changes and the current state of research in course recommender systems, we outline essential properties for course recommender systems to address these demands effectively, including explainable, sequential, unsupervised, and aligned with the job market and user's goals. Our discussion extends to the challenges and research questions this objective entails, including unsupervised skill extraction from job listings, course descriptions, and resumes, as well as predicting recommendations that align with learner objectives and the job market and designing metrics to evaluate this alignment. Furthermore, we introduce an initial system that addresses some existing limitations of course recommender systems using large Language Models (LLMs) for skill extraction and Reinforcement Learning (RL) for alignment with the job market. We provide empirical results using open-source data to demonstrate its effectiveness.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# LLM以外のインストラクションを伴わないインストラクションによるテキスト分類器のインキュベーション

Incubating Text Classifiers Following User Instruction with Nothing but LLM ( http://arxiv.org/abs/2404.10877v1 )

ライセンス: Link先を確認
Letian Peng, Jingbo Shang, (参考訳) 本稿では,任意のクラス定義(ユーザ・インストラクション)を与えられたテキスト分類データを生成することを目的としており,人間のアノテーションや生のコーパスを使わずに,小さなテキスト分類器を訓練することができる。 先駆的な試みと比較して、提案したインキュベータは、複雑で相互に依存したクラス(例えば、Eduucatorから提供されるTED Talkや他)を処理できる最初のフレームワークです。 具体的には,まず,HuggingFace の分類データセットと記述から得られた命令-データマッピングを,GPT-4 によるテキスト内拡張とともに調整した LLM である。 次に、インキュベーターを意味的テキスト埋め込みのクラスタ中心で学習し、世代ごとの統一性と意味的多様性を強調する。 各種分類タスクにおけるインキュベータと,直接LLMに基づく推論や,迅速なエンジニアリングによるトレーニングデータ生成などの強力なベースラインを比較した。 実験では,(1)従来のベンチマークでうまく動作し,(2)ラベル依存やユーザの好みを考慮に入れ,(3)複数の分類器をインキュベートすることで論理的なテキストマイニングを可能にする。

In this paper, we aim to generate text classification data given arbitrary class definitions (i.e., user instruction), so one can train a small text classifier without any human annotation or raw corpus. Compared with pioneer attempts, our proposed Incubator is the first framework that can handle complicated and even mutually dependent classes (e.g., "TED Talk given by Educator" and "Other"). Specifically, Incubator is an LLM firstly tuned on the instruction-to-data mappings that we obtained from classification datasets and descriptions on HuggingFace together with in-context augmentation by GPT-4. We then refine Incubator by learning on the cluster centers of semantic textual embeddings to emphasize the uniformity and semantic diversity in generations. We compare Incubator on various classification tasks with strong baselines such as direct LLM-based inference and training data generation by prompt engineering. Experiments show Incubator is able to (1) perform well on traditional benchmarks, (2) take label dependency and user preference into consideration, and (3) enable logical text mining by incubating multiple classifiers.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# HumMUSS: 状態空間モデルを用いた人間の動作理解

HumMUSS: Human Motion Understanding using State Space Models ( http://arxiv.org/abs/2404.10880v1 )

ライセンス: Link先を確認
Arnab Kumar Mondal, Stefano Alletto, Denis Tome, (参考訳) ビデオから人間の動きを理解することは、ポーズ推定、メッシュリカバリ、アクション認識など、さまざまなアプリケーションに不可欠である。 最先端の手法は主にトランスフォーマーベースのアーキテクチャに依存しているが、これらの手法は現実的なシナリオにおいて制限がある。 トランスフォーマーは、連続したフレームストリームをリアルタイムに逐次予測する場合は遅く、新しいフレームレートに一般化しない。 これらの制約を考慮し,近年の状態空間モデルの発展にともなう人間の動き理解構築のための,新しい無注意時空間モデルを提案する。 我々のモデルは、様々な動作理解タスクにおけるトランスフォーマーモデルの性能に適合するだけでなく、異なるビデオフレームレートへの適応性や、キーポイントの長いシーケンスで作業する際のトレーニング速度の向上といったメリットももたらす。 さらに、提案モデルはオフラインおよびリアルタイムアプリケーションの両方をサポートする。 リアルタイムの逐次予測では、高い精度を維持しながら、トランスフォーマーベースのアプローチよりもメモリ効率が高く、数倍高速である。

Understanding human motion from video is essential for a range of applications, including pose estimation, mesh recovery and action recognition. While state-of-the-art methods predominantly rely on transformer-based architectures, these approaches have limitations in practical scenarios. Transformers are slower when sequentially predicting on a continuous stream of frames in real-time, and do not generalize to new frame rates. In light of these constraints, we propose a novel attention-free spatiotemporal model for human motion understanding building upon recent advancements in state space models. Our model not only matches the performance of transformer-based models in various motion understanding tasks but also brings added benefits like adaptability to different video frame rates and enhanced training speed when working with longer sequence of keypoints. Moreover, the proposed model supports both offline and real-time applications. For real-time sequential prediction, our model is both memory efficient and several times faster than transformer-based approaches while maintaining their high accuracy.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# スパース勾配を用いた微分プライベート最適化

Differentially Private Optimization with Sparse Gradients ( http://arxiv.org/abs/2404.10881v1 )

ライセンス: Link先を確認
Badih Ghazi, Cristóbal Guzmán, Pritish Kamath, Ravi Kumar, Pasin Manurangsi, (参考訳) 大規模埋め込みモデルの適用により、個々の勾配の空間性の下で、微分プライベート(DP)最適化問題を研究する。 まず,従来の平均推定問題に対する新しい近似境界から始めるが,スパースデータにより,特に高次元構造に対する既存のアルゴリズムの改善を行う。 これに基づいて,スパース勾配の確率凸最適化にほぼ最適である純粋および近似DPアルゴリズムが得られ,前者はこの問題に対する最初のほぼ次元に依存しない速度を表す。 最後に、近似DP最適化における経験的損失に対する定常点の近似について検討し、次元、モジュラー多元対数因子の代わりに空間に依存する速度を求める。

Motivated by applications of large embedding models, we study differentially private (DP) optimization problems under sparsity of individual gradients. We start with new near-optimal bounds for the classic mean estimation problem but with sparse data, improving upon existing algorithms particularly for the high-dimensional regime. Building on this, we obtain pure- and approximate-DP algorithms with almost optimal rates for stochastic convex optimization with sparse gradients; the former represents the first nearly dimension-independent rates for this problem. Finally, we study the approximation of stationary points for the empirical loss in approximate-DP optimization and obtain rates that depend on sparsity instead of dimension, modulo polylogarithmic factors.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# 複合環境における機能的原因の自動発見

Automated Discovery of Functional Actual Causes in Complex Environments ( http://arxiv.org/abs/2404.10883v1 )

ライセンス: Link先を確認
Caleb Chuck, Sankaran Vaidyanathan, Stephen Giguere, Amy Zhang, David Jensen, Scott Niekum, (参考訳) 強化学習(Reinforcement Learning, RL)アルゴリズムは、因果的混乱、無関係な要因への過度な適合、状態要因の制御の分離の失敗などの問題により、新しい状況に一般化する政策を学ぶのに苦労することが多い。 これらの問題は、環境における状態固有の因果関係を正確に識別し、活用できないという共通の情報源に由来する。 RLにおけるいくつかの先行研究はこれらの関係を明確に識別することを目的としているが、それらは空間的・時間的近接のような非公式な領域固有のヒューリスティックに依存している。 実際の因果関係は、特定の出来事の原因を決定するための原則的で一般的な枠組みを提供する。 しかし、実際の原因に関する既存の定義は、多くの場合、多くの事象が結果にほとんど影響を与えないとしても、因果関係に起因している。 実際の因果性に関する以前の研究は、この問題に対する解決策として正規性を提案するが、既存の実装は複雑で連続的なRL環境にスケールすることが困難である。 本稿では,機能的現実原因 (FAC) について紹介する。 さらに、観測データから関数的原因を推測するアルゴリズムであるJACI(Joint Optimization for Actual Cause Inference)を導入する。 JACIは、複雑で連続的な評価環境において、既存のヒューリスティックな手法よりもはるかに高い精度で、実際の原因を特定する。

Reinforcement learning (RL) algorithms often struggle to learn policies that generalize to novel situations due to issues such as causal confusion, overfitting to irrelevant factors, and failure to isolate control of state factors. These issues stem from a common source: a failure to accurately identify and exploit state-specific causal relationships in the environment. While some prior works in RL aim to identify these relationships explicitly, they rely on informal domain-specific heuristics such as spatial and temporal proximity. Actual causality offers a principled and general framework for determining the causes of particular events. However, existing definitions of actual cause often attribute causality to a large number of events, even if many of them rarely influence the outcome. Prior work on actual causality proposes normality as a solution to this problem, but its existing implementations are challenging to scale to complex and continuous-valued RL environments. This paper introduces functional actual cause (FAC), a framework that uses context-specific independencies in the environment to restrict the set of actual causes. We additionally introduce Joint Optimization for Actual Cause Inference (JACI), an algorithm that learns from observational data to infer functional actual causes. We demonstrate empirically that FAC agrees with known results on a suite of examples from the actual causality literature, and JACI identifies actual causes with significantly higher accuracy than existing heuristic methods in a set of complex, continuous-valued environments.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# クエリを越えた検索:強化学習によるWebインタラクションのためのより小さな言語モデルのトレーニング

Search Beyond Queries: Training Smaller Language Models for Web Interactions via Reinforcement Learning ( http://arxiv.org/abs/2404.10887v1 )

ライセンス: Link先を確認
Moghis Fereidouni, A. B. Siddique, (参考訳) 従来の検索システムは、効果的な結果のためのクエリの定式化に重点を置いているが、ユーザが特定の製品ページにアクセスするまで、重要な製品の詳細(例えば、サイズ、色)が隠されている製品検索のようなシナリオでは、課題に直面している。 これは、クエリを定式化し、ユーザの高レベルな意図に従ってWebページをナビゲートできるインテリジェントなWebナビゲーションエージェントの必要性を強調している。 このニーズに応えて、この研究はGLAINTELと呼ばれるインテリジェントWebインタラクションのためのグラウンデッド言語エージェントを導入している。 GLAINTELは,言語モデリングと強化学習の進歩に基づき,対話型Web環境の検索機能向上におけるトランスフォーマーモデルの有効性について検討した。 Webナビゲーションにおける各状態の動的アクション空間を考えると、GLAINTELはFlan-T5アーキテクチャを採用し、言語モデリングと値推定ヘッドを組み込んでいる。 この研究は、さまざまなシナリオにまたがるエージェントとして、より小さな言語モデルをトレーニングすることに焦点を当て、トレーニングプロセスにおける人間のデモンストレーションの影響を体系的に評価する。 具体的には,人間による実演が不可能なシナリオについて検討し,その有効利用を検証した。 デモが特定のドメインに限定されている状況に対する教師なしのドメイン適応についても検討する。 多様な設定に対する実験的な評価は、教師なし設定におけるトレーニングエージェントの有効性を示し、最大5400億のパラメータを持つより大きなモデルを使用するコンテキスト内学習ベースのアプローチよりも優れている。 驚くべきことに、人間の実演を直接利用する行動的クローニングベースの手法は、教師なしの学習ベースの手法より優れているわけではない。 さらに、人間によるデモンストレーションと強化学習ベースのトレーニングを組み合わせることで、GPT-4を使用したモデルに匹敵する結果が得られる。

Traditional search systems focus on query formulation for effective results but face challenges in scenarios such as product searches where crucial product details (e.g., size, color) remain concealed until users visit specific product pages. This highlights the need for intelligent web navigation agents capable of formulating queries and navigating web pages according to users' high-level intents. In response to this need, this work introduces a Grounded Language Agent for Intelligent Web Interactions, called GLAINTEL. Drawing upon advancements in language modeling and reinforcement learning, GLAINTEL investigates the efficacy of transformer-based models in enhancing the search capabilities of interactive web environments. Given the dynamic action space for each state in web navigation, GLAINTEL employs the Flan-T5 architecture and incorporates language modeling and value estimation heads. This work focuses on training smaller language models as agents across various scenarios, systematically evaluating the impact of human demonstrations on the training process. Specifically, we investigate scenarios where no human demonstrations are available and subsequently assess the effective utilization of such demonstrations. We also explore unsupervised domain adaptation for situations where demonstrations are confined to a specific domain. Experimental evaluations across diverse setups demonstrate the effectiveness of training agents in unsupervised settings, outperforming in-context learning-based approaches that employ larger models with up to 540 billion parameters. Surprisingly, behavioral cloning-based methods that straightforwardly use human demonstrations do not outperform unsupervised learning-based methods. Additionally, combining human demonstrations with Reinforcement Learning-based training yields results comparable to models utilizing GPT-4.
翻訳日:2024-04-18 18:02:19 公開日:2024-04-16
# バイマニアルモータスキル評価における認知運動統合

Cognitive-Motor Integration in Assessing Bimanual Motor Skills ( http://arxiv.org/abs/2404.10889v1 )

ライセンス: Link先を確認
Erim Yanik, Xavier Intes, Suvranu De, (参考訳) バイマニュアル・モータースキルの正確な評価は、様々な職業において不可欠であるが、伝統的な手法は主観的評価に頼り、認知過程の不可欠な役割を見越して、運動行動のみに焦点をあてることが多い。 本研究では、ディープニューラルネットワーク(DNN)を活用して、認知的意思決定と運動実行の両方を分析し統合する新しいアプローチを提案する。 本手法は腹腔鏡下外科手術プログラムにおける腹腔鏡下手術の技能を評価することで検証した。 運動行動の映像キャプチャと、神経活動の測定に非侵襲的近赤外分光法(fNIRS)を用いて、我々は、被験者を専門レベルによって正確に分類し、従来の単一モダリティ評価をはるかに上回る、FLSの行動パフォーマンススコアを予測する。

Accurate assessment of bimanual motor skills is essential across various professions, yet, traditional methods often rely on subjective assessments or focus solely on motor actions, overlooking the integral role of cognitive processes. This study introduces a novel approach by leveraging deep neural networks (DNNs) to analyze and integrate both cognitive decision-making and motor execution. We tested this methodology by assessing laparoscopic surgery skills within the Fundamentals of Laparoscopic Surgery program, which is a prerequisite for general surgery certification. Utilizing video capture of motor actions and non-invasive functional near-infrared spectroscopy (fNIRS) for measuring neural activations, our approach precisely classifies subjects by expertise level and predicts FLS behavioral performance scores, significantly surpassing traditional single-modality assessments.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# AIに基づく合成ペルソナの強化と認知戦略の探求

Exploring Augmentation and Cognitive Strategies for AI based Synthetic Personae ( http://arxiv.org/abs/2404.10890v1 )

ライセンス: Link先を確認
Rafael Arias Gonzalez, Steve DiPaola, (参考訳) 大型言語モデル(LLM)は、合成人格の作成を含む革新的なHCI研究の可能性を秘めている。 しかし、そのブラックボックスの性質と幻覚の正当性は困難を呈する。 これらの制約に対処するために、このポジションペーパーはゼロショットジェネレータではなく、データ拡張システムとしてLLMを使うことを提唱する。 さらに,LSM応答をガイドする堅牢な認知・記憶フレームワークの開発を提案する。 初期の調査では、データの豊かさ、エピソード記憶、自己回帰技術が合成人格の信頼性を高め、HCI研究のための新たな道を開くことが示唆された。

Large language models (LLMs) hold potential for innovative HCI research, including the creation of synthetic personae. However, their black-box nature and propensity for hallucinations pose challenges. To address these limitations, this position paper advocates for using LLMs as data augmentation systems rather than zero-shot generators. We further propose the development of robust cognitive and memory frameworks to guide LLM responses. Initial explorations suggest that data enrichment, episodic memory, and self-reflection techniques can improve the reliability of synthetic personae and open up new avenues for HCI research.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# 画像内容とメタデータを用いた前立腺MRシリーズの分類

Automatic classification of prostate MR series type using image content and metadata ( http://arxiv.org/abs/2404.10892v1 )

ライセンス: Link先を確認
Deepa Krishnaswamy, Bálint Kovács, Stefan Denner, Steve Pieper, David Clunie, Christopher P. Bridge, Tina Kapur, Klaus H. Maier-Hein, Andrey Fedorov, (参考訳) 医用画像データが豊富にあるため、効率的なキュレーションが不可欠である。 磁気共鳴画像に配列型を割り当てることは、科学研究と人工知能に基づく分析に必要である。 しかし、不完全または欠落したメタデータは、効果的な自動化を妨げる。 そこで本稿では,画像データとDICOMメタデータを組み合わせて前立腺癌スキャンシーケンスを分類する深層学習手法を提案する。 メタデータやイメージデータのみと比較して優れた結果を示し、コードをhttps://github.com/deepakri201/DICOMScanClassification.comで公開しています。

With the wealth of medical image data, efficient curation is essential. Assigning the sequence type to magnetic resonance images is necessary for scientific studies and artificial intelligence-based analysis. However, incomplete or missing metadata prevents effective automation. We therefore propose a deep-learning method for classification of prostate cancer scanning sequences based on a combination of image data and DICOM metadata. We demonstrate superior results compared to metadata or image data alone, and make our code publicly available at https://github.com/deepakri201/DICOMScanClassification.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# 全スライド画像の診断のための意味的注意指導

Semantics-Aware Attention Guidance for Diagnosing Whole Slide Images ( http://arxiv.org/abs/2404.10894v1 )

ライセンス: Link先を確認
Kechun Liu, Wenjun Wu, Joann G. Elmore, Linda G. Shapiro, (参考訳) 正確ながん診断はデジタル病理学において重要な課題であり、主にスライド画像全体に存在するギガピクセルのサイズと複雑な空間的関係が原因である。 従来のマルチ・インスタンス・ラーニング(MIL)手法は、特に正確な診断に必要なコンテキストを保存する上で、これらの複雑さに苦しむことが多い。 これに対し,セマンティックス・アウェア・アテンション・ガイダンス (SAG) という新しいフレームワークを導入する。 1)診断関連物質を注意信号に変換する技術 2) 組織解剖学や癌領域などの意味学的重要な情報を効率的に統合するフレキシブル・アテンション・ロス。 2つの異なるがんデータセットに対する実験は、2つの最先端ベースラインモデルで精度、精度、リコールが一貫した改善を示した。 定性的分析により、ヒューリスティックガイダンスの導入により、モデルは診断に不可欠な領域に集中できることが明らかになった。 SAGは、ここで議論されたモデルに有効であるだけでなく、どの注意に基づく診断モデルにも適応可能である。 これは、がん診断の精度と効率をさらに向上させるエキサイティングな可能性を開く。

Accurate cancer diagnosis remains a critical challenge in digital pathology, largely due to the gigapixel size and complex spatial relationships present in whole slide images. Traditional multiple instance learning (MIL) methods often struggle with these intricacies, especially in preserving the necessary context for accurate diagnosis. In response, we introduce a novel framework named Semantics-Aware Attention Guidance (SAG), which includes 1) a technique for converting diagnostically relevant entities into attention signals, and 2) a flexible attention loss that efficiently integrates various semantically significant information, such as tissue anatomy and cancerous regions. Our experiments on two distinct cancer datasets demonstrate consistent improvements in accuracy, precision, and recall with two state-of-the-art baseline models. Qualitative analysis further reveals that the incorporation of heuristic guidance enables the model to focus on regions critical for diagnosis. SAG is not only effective for the models discussed here, but its adaptability extends to any attention-based diagnostic model. This opens up exciting possibilities for further improving the accuracy and efficiency of cancer diagnostics.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# 対角ユニタリおよび直交対称性を持つシュワルツ・クビット写像のクラス

A class of Schwarz qubit maps with diagonal unitary and orthogonal symmetries ( http://arxiv.org/abs/2404.10895v1 )

ライセンス: Link先を確認
Dariusz Chruściński, Bihalan Bhattacharya, (参考訳) 対角的ユニタリおよび直交対称性を示すユニタリキュービットマップのクラスを解析した。 このような写像はすでに量子情報理論に多くの応用を見出した。 積、作用素シュワルツの不等式、完全積の間の複雑な関係を示すこの写像のクラスを完全に特徴づける。 最後に、全体像をユニタリケースを超えて一般化する方法が示される(いわゆる一般化シュワルツ写像)。 興味深いことに、シュワルツの最初の例であるが、チェイによって発見された完全正の写像は我々のクラスに属する。 ケーススタディとして、パウリ写像の完全な特徴づけを提供する。 我々の分析は、パウリ量子チャネルに対するセミナルな藤原-アルゴット条件の一般化につながる。

A class of unital qubit maps displaying diagonal unitary and orthogonal symmetries is analyzed. Such maps already found a lot applications in quantum information theory. We provide a complete characterization of this class of maps showing intricate relation between positivity, operator Schwarz inequality, and complete positivity. Finally, it is shown how to generalize the entire picture beyond unital case (so called generalized Schwarz maps). Interestingly, the first example of Schwarz but not completely positive map found by Choi belongs to our class. As a case study we provide a full characterization of Pauli maps. Our analysis leads to generalization of seminal Fujiwara-Algoet conditions for Pauli quantum channels.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# Llama2 7B重みの無損失(~1.5:1)圧縮アルゴリズムから可変精度、可変範囲、CNNおよびLLM用圧縮数値データ型へ

From a Lossless (~1.5:1) Compression Algorithm for Llama2 7B Weights to Variable Precision, Variable Range, Compressed Numeric Data Types for CNNs and LLMs ( http://arxiv.org/abs/2404.10896v1 )

ライセンス: Link先を確認
Vincenzo Liguori, (参考訳) 本稿では,大言語モデル (LLM) Llama2 7B [1] の重みに対する単純なロスレス ~1.5:1 圧縮アルゴリズムから始める。 その後、このフレームワークは可変精度、可変範囲、圧縮された数値データ型に拡張される。 次に、この柔軟なデータフォーマットと計算エンジンとのブリッジとして機能するANS(非対称数値システム) [3]に基づく、そのようなフォーマットの簡単なハードウェア実装について、同時に帯域幅削減を実現する。 重量圧縮と共有を用いたトークンファクトリの例も提供される。

This paper starts with a simple lossless ~1.5:1 compression algorithm for the weights of the Large Language Model (LLM) Llama2 7B [1] that can be implemented in ~200 LUTs in AMD FPGAs, processing over 800 million bfloat16 numbers per second. This framework is then extended to variable precision, variable range, compressed numerical data types that are a user defined super set of both floats and posits [2]. The paper then discusses a simple hardware implementation of such format based on ANS (Asymmetrical Numeral Systems) [3] that acts as a bridge between this flexible data format and a computational engine while, at the same time, achieving bandwidth reduction. An example of a token factory using weight compression and sharing is also given.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# 難治性後部分布推定のための変分ニューラルベイズフレームワーク

A variational neural Bayes framework for inference on intractable posterior distributions ( http://arxiv.org/abs/2404.10899v1 )

ライセンス: Link先を確認
Elliot Maceda, Emily C. Hector, Amanda Lenzi, Brian J. Reich, (参考訳) 複素モデルを持つ古典的ベイズ法は、難解な可能性のためにしばしば実現不可能である。 Approximate Bayesian Computing (ABC) のようなシミュレーションベースの推論手法は、データをモデルから素早くシミュレートできるが、高次元設定ではゆっくりと収束し、あるいは弱くなるという事実を利用して、確率関数にアクセスせずに後部を計算する。 本論文では,複素モデルからシミュレーションしたデータに基づいて学習したニューラルネットワークを用いて,パラメータの後方にデータをマッピングすることでベイズ後部推定のための枠組みを提案する。 トレーニングされたニューラルネットワークに観測データを供給することにより、モデルパラメータの後方分布を効率的に取得する。 理論的には、我々の後部はKulback-Leiblerの発散において真の後部に収束することを示す。 提案手法は,既存のシミュレーションベースニューラルネットワークアプローチに欠ける,計算効率が高く,理論的に正当化された不確実性定量化を導出する。 総合シミュレーション研究は、我々の手法の堅牢性と正確性を強調している。

Classic Bayesian methods with complex models are frequently infeasible due to an intractable likelihood. Simulation-based inference methods, such as Approximate Bayesian Computing (ABC), calculate posteriors without accessing a likelihood function by leveraging the fact that data can be quickly simulated from the model, but converge slowly and/or poorly in high-dimensional settings. In this paper, we propose a framework for Bayesian posterior estimation by mapping data to posteriors of parameters using a neural network trained on data simulated from the complex model. Posterior distributions of model parameters are efficiently obtained by feeding observed data into the trained neural network. We show theoretically that our posteriors converge to the true posteriors in Kullback-Leibler divergence. Our approach yields computationally efficient and theoretically justified uncertainty quantification, which is lacking in existing simulation-based neural network approaches. Comprehensive simulation studies highlight our method's robustness and accuracy.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# CrossGP:生理情報を除く1日ごとのグルコース予測

CrossGP: Cross-Day Glucose Prediction Excluding Physiological Information ( http://arxiv.org/abs/2404.10901v1 )

ライセンス: Link先を確認
Ziyi Zhou, Ming Cheng, Yanjun Cui, Xingjian Diao, Zhaorui Ma, (参考訳) 糖尿病患者の増加は、今日の社会で深刻な問題であり、人々の健康と国の財政支出に大きな影響を及ぼす。 糖尿病は、潜在的に深刻な合併症に発展する可能性があるため、糖尿病患者の早期血糖予測は、タイムリーな治療に必要である。 既存のグルコース予測法は、通常、患者のプライベートデータ(例えば年齢、性別、民族)と生理的パラメータ(例えば血圧、心拍数)をグルコース予測の基準特徴として利用しており、これは必然的にプライバシー保護の懸念につながる。 さらに、これらのモデルは一般的に、長期(月ベース)または短期(分ベース)の予測に焦点を当てる。 長期予測法は、グルコース値に大きな影響を及ぼす外部の不確実性のため、一般的に不正確であるが、短期予測法では、タイムリーな医療指導が得られない。 以上の課題に基づき, 生理的パラメータを含まない, 患者の外部活動にのみ依存した, 日内血糖予測のための新しい機械学習フレームワークであるCrossGPを提案する。 一方,比較のために3つのベースラインモデルを実装した。 Andersonのデータセットに関する大規模な実験は、CrossGPの優れた性能を強く証明し、将来の現実的な応用の可能性を証明するものである。

The increasing number of diabetic patients is a serious issue in society today, which has significant negative impacts on people's health and the country's financial expenditures. Because diabetes may develop into potential serious complications, early glucose prediction for diabetic patients is necessary for timely medical treatment. Existing glucose prediction methods typically utilize patients' private data (e.g. age, gender, ethnicity) and physiological parameters (e.g. blood pressure, heart rate) as reference features for glucose prediction, which inevitably leads to privacy protection concerns. Moreover, these models generally focus on either long-term (monthly-based) or short-term (minute-based) predictions. Long-term prediction methods are generally inaccurate because of the external uncertainties that can greatly affect the glucose values, while short-term ones fail to provide timely medical guidance. Based on the above issues, we propose CrossGP, a novel machine-learning framework for cross-day glucose prediction solely based on the patient's external activities without involving any physiological parameters. Meanwhile, we implement three baseline models for comparison. Extensive experiments on Anderson's dataset strongly demonstrate the superior performance of CrossGP and prove its potential for future real-life applications.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# 顔表情認識のためのマルチタスクマルチモーダル自己教師付き学習

Multi-Task Multi-Modal Self-Supervised Learning for Facial Expression Recognition ( http://arxiv.org/abs/2404.10904v1 )

ライセンス: Link先を確認
Marah Halawa, Florian Blume, Pia Bideau, Martin Maier, Rasha Abdel Rahman, Olaf Hellwich, (参考訳) ヒューマンコミュニケーションはマルチモーダルであり、例えば、対面相互作用には聴覚信号(音声)と視覚信号(顔の動きと手の動き)が含まれる。 したがって、機械学習に基づく顔認識システムの設計において、複数のモダリティを活用することが不可欠である。 さらに、人間の表情を捉えたビデオデータがどんどん増え続けていることを踏まえると、こうしたシステムは高価なアノテーションを必要とせず、生のラベル付きビデオを活用すべきである。 そこで本研究では,マルチタスク・マルチモーダル・セルフ教師付き学習手法を用いて,映像データから表情認識を行う。 まず、マルチモーダルなコントラスト損失であり、同じビデオの多様なデータモダリティを表現空間で引き出す。 第二に、表現空間における入力データのセマンティック構造を保存するマルチモーダルクラスタリング損失。 最後に、マルチモーダルデータ再構成損失。 本稿では,このマルチモーダルなマルチタスク型自己教師型学習手法について,3つの表情認識ベンチマークで包括的な研究を行う。 そこで本研究では,表情認識タスクにおける自己指導タスクの異なる組み合わせによる学習性能について検討する。 我々のモデルであるConCluGenは、CMU-MOSEIデータセット上で、複数のマルチモーダルな自己教師付きベースラインより優れています。 以上の結果から,マルチモーダル・セルフ・スーパービジョン・タスクは表情認識などの課題に対して大きなパフォーマンス向上をもたらすとともに,手動アノテーションの量も削減できることがわかった。 トレーニング済みのモデルとソースコードを公開しています。

Human communication is multi-modal; e.g., face-to-face interaction involves auditory signals (speech) and visual signals (face movements and hand gestures). Hence, it is essential to exploit multiple modalities when designing machine learning-based facial expression recognition systems. In addition, given the ever-growing quantities of video data that capture human facial expressions, such systems should utilize raw unlabeled videos without requiring expensive annotations. Therefore, in this work, we employ a multitask multi-modal self-supervised learning method for facial expression recognition from in-the-wild video data. Our model combines three self-supervised objective functions: First, a multi-modal contrastive loss, that pulls diverse data modalities of the same video together in the representation space. Second, a multi-modal clustering loss that preserves the semantic structure of input data in the representation space. Finally, a multi-modal data reconstruction loss. We conduct a comprehensive study on this multimodal multi-task self-supervised learning method on three facial expression recognition benchmarks. To that end, we examine the performance of learning through different combinations of self-supervised tasks on the facial expression recognition downstream task. Our model ConCluGen outperforms several multi-modal self-supervised and fully supervised baselines on the CMU-MOSEI dataset. Our results generally show that multi-modal self-supervision tasks offer large performance gains for challenging tasks such as facial expression recognition, while also reducing the amount of manual annotations required. We release our pre-trained models as well as source code publicly
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# 解釈型強化学習研究コミュニティに向けて:InterpPol Workshop

Towards a Research Community in Interpretable Reinforcement Learning: the InterpPol Workshop ( http://arxiv.org/abs/2404.10906v1 )

ライセンス: Link先を確認
Hector Kohler, Quentin Delfosse, Paul Festor, Philippe Preux, (参考訳) 本質的に説明可能な強化学習の追求は、説明可能性と解釈可能性とを区別する重要な疑問を提起する。 透明性が不可欠であるドメインの外で、説明可能なエージェントと解釈可能なエージェントを開発するべきか? ニューラルネットワークよりも解釈可能なポリシは,どのようなメリットがあるのでしょう? ユーザスタディなしで、ポリシーの解釈可能性をどのように厳格に定義し、測定するか。 どんな強化学習パラダイムが、解釈可能なエージェントを開発するのに最も適しているのか? マルコフ決定プロセスは解釈可能な状態表現を統合することができるか? 上記の質問を中心にした解釈可能なRLコミュニティのモチベーションに加えて,解釈可能なRLのための最初の会場であるInterpPol Workshopを提案する。

Embracing the pursuit of intrinsically explainable reinforcement learning raises crucial questions: what distinguishes explainability from interpretability? Should explainable and interpretable agents be developed outside of domains where transparency is imperative? What advantages do interpretable policies offer over neural networks? How can we rigorously define and measure interpretability in policies, without user studies? What reinforcement learning paradigms,are the most suited to develop interpretable agents? Can Markov Decision Processes integrate interpretable state representations? In addition to motivate an Interpretable RL community centered around the aforementioned questions, we propose the first venue dedicated to Interpretable RL: the InterpPol Workshop.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# ランダム超平面テッセルレーションを用いた因果効果推定

Causal Effect Estimation Using Random Hyperplane Tessellations ( http://arxiv.org/abs/2404.10907v1 )

ライセンス: Link先を確認
Abhishek Dalvi, Neil Ashtekar, Vasant Honavar, (参考訳) マッチングは観測データから因果効果を推定する最も単純な手法の1つである。 マッチング手法は、類似の共変量を持つ対の個人間で観察された結果を比較し、因果効果を推定するために異なる治療状況を示す。 しかし、伝統的なマッチング技術は、次元性の悪名高い呪いのため、高次元の共変量を与えられない。 この課題を克服するため,Random Hyperplane Tessellations (RHPT) を用いた単純な高速かつ高効率なマッチング手法を提案する。 まず、RHPT表現が近似バランススコアであること、すなわち強い無知性の仮定を維持していることを証明し、この主張に対する実証的な証拠を提供する。 第2に、RHPTを用いたマッチングが従来のマッチング手法より優れており、因果効果推定のための最先端のディープラーニング手法と競合することを示す広範な実験結果について報告する。 さらに、RHPTはディープニューラルネットワークの計算コストの高いトレーニングを不要にしている。

Matching is one of the simplest approaches for estimating causal effects from observational data. Matching techniques compare the observed outcomes across pairs of individuals with similar covariate values but different treatment statuses in order to estimate causal effects. However, traditional matching techniques are unreliable given high-dimensional covariates due to the infamous curse of dimensionality. To overcome this challenge, we propose a simple, fast, yet highly effective approach to matching using Random Hyperplane Tessellations (RHPT). First, we prove that the RHPT representation is an approximate balancing score -- thus maintaining the strong ignorability assumption -- and provide empirical evidence for this claim. Second, we report results of extensive experiments showing that matching using RHPT outperforms traditional matching techniques and is competitive with state-of-the-art deep learning methods for causal effect estimation. In addition, RHPT avoids the need for computationally expensive training of deep neural networks.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# 機械学習による量子スピン鎖の因子化表面の発見

Discovering Factorization Surface of Quantum Spin Chains with Machine Learning ( http://arxiv.org/abs/2404.10910v1 )

ライセンス: Link先を確認
Nakul Aggarwal, Keshav Das Agarwal, Tanoy Kanti Konar, Leela Ganesh Chandra Lakkaraju, Aditi Sen De, (参考訳) 量子多体系の絡み合いは様々な量子情報処理に必要であり、基底状態が完全に分離可能なパラメータ空間を同定することが決定的に重要である。 それでも、いくつかの量子スピンモデルに対するFSを示すチューニングパラメータは未知のままである。 我々は、教師付き学習手法である記号回帰(SR)を用いて、量子多体ハミルトニアンのFSに対応するパラメータ状態における閉形式表現を決定する。 本手法の有効性は, FS がよく知られている Kaplan-Shekhtman-Entin-Aharony 相互作用を付加した NN 量子超越XY モデルを用いて, 解析的に抽出可能なモデルを検証することによって検証する。 我々は,XYZモデルのFSに対して,基底状態が行列積状態形式によって導出されるSRアルゴリズムによって設定されたパラメータを提供することにより,正確な表現を構築する。 精度の良好なレベルで、長距離XYモデルのFSと、分解面が不明なジアロシンスキー-モリヤ型非対称相互作用を持つNN XYモデルを推定する。

Entanglement in quantum many-body systems is required for a variety of quantum information tasks, making it crucial to identify the parameter space in which the ground state is fully separable, known as the factorization surface (FS). Nonetheless, the tuning parameters indicating FS for several quantum spin models remain unknown. We employ symbolic regression (SR), a supervised learning technique, to determine a closed-form expression in the parameter regime corresponding to FS of quantum many-body Hamiltonians. We verify the effectiveness of this method by examining the analytically tractable models, namely a nearest-neighbor (NN) quantum transverse XY model with additional Kaplan-Shekhtman-Entin-Aharony interactions, for which the FS is well-known. We construct an accurate expression for the FS of the XYZ model by providing the parameter set through the SR algorithm in which the ground state is derived by matrix product state formalism. With a satisfactory level of accuracy, we estimate the FS for the long-range XY model, and the NN XY model with Dzyaloshinskii-Moriya type asymmetric interaction for which the factorization surface is not known.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# チームベースラーニング(TBL)とオープンソースソフトウェア(OSS)によるソフトウェアテスティングの実践へのブリッジ理論

Bridging Theory to Practice in Software Testing Teaching through Team-based Learning (TBL) and Open Source Software (OSS) Contribution ( http://arxiv.org/abs/2404.10912v1 )

ライセンス: Link先を確認
Elaine Venson, Reem Alfayez, (参考訳) 大学院ソフトウェア工学コースのカリキュラム推奨は、伝統的な講義形式から、時間限定の反復的な開発実践に学生を積極的に巻き込むことの重要性を浮き彫りにしている。 本稿では,TBLの活用とOSSプロジェクトへの積極的貢献を通じて,理論と実践的経験を統合したソフトウェアテストコースの指導的アプローチを提案する。 本報告では,大学院ソフトウェア工学科のソフトウェアテスティングコースを4学期連続で実施した経験について報告する。 この経験は、オンラインクラスと対人クラスの両方を包含しており、4学年にまたがる300人以上の学生のかなりのコホートを含んでいる。 授業に関する学生の認識は、これまでの関連研究と分析・比較される。 我々の結果は、既存のソフトウェア工学教育の文献と正に一致しており、TBLとOSSコントリビューションの組み合わせの有効性を確認しています。 さらに、私たちの調査では、OSSプロジェクトへの最初のコントリビューションで、学生が直面する課題に光を当て、ターゲットとするソリューションの必要性を強調しています。 全体として、この経験から、提案された教育構造が、理論的知識からソフトウェアテストの領域における現実の実践への移行を効果的に促進できることが示される。

Curricula recommendation for undergraduate Software Engineering courses underscore the importance of transcending from traditional lecture format to actively involving students in time-limited, iterative development practices. This paper presents a teaching approach for a software testing course that integrates theory and practical experience through the utilization of both TBL and active contributions to OSS projects. The paper reports on our experience implementing the pedagogical approach over four consecutive semesters of a Software Testing course within an undergraduate Software Engineering program. The experience encompassed both online and in-person classes, involving a substantial cohort of over 300 students spanning four semesters. Students' perceptions regarding the course are analyzed and compared with previous, related studies. Our results are positively aligned with the existing literature of software engineering teaching, confirming the effectiveness of combining TBL with OSS contributions. Additionally, our survey has shed light on the challenges that students encounter during their first contribution to OSS projects, highlighting the need for targeted solutions. Overall, the experience demonstrates that the proposed pedagogical structure can effectively facilitate the transition from theoretical knowledge to real-world practice in the domain of Software Testing.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# 位相自由ZHにおける$\mathrm{NP}^{\mathord{\#}\mathrm P}$完全問題と${\mathord{\#}\mathrm P}$-hardnessの回路抽出

Constructing $\mathrm{NP}^{\mathord{\#}\mathrm P}$-complete problems and ${\mathord{\#}\mathrm P}$-hardness of circuit extraction in phase-free ZH ( http://arxiv.org/abs/2404.10913v1 )

ライセンス: Link先を確認
Piotr Mitosek, (参考訳) ZH計算は、量子計算推論のためのグラフィカル言語である。 位相自由変種は、普遍性を保証する単純なジェネレータセットを提供する。 ZH計算は、普遍ゲート集合Toffoli+Hで構築された量子回路のMBQCと解析に有効である。 回路は自然にZHダイアグラムに変換されるが、与えられたダイアグラムに相当するアンシラフリーな回路を見つけることは難しい。 ここでは、位相フリーなZH計算に対する回路抽出が${\mathord{\#}\mathrm P}$-hardであることを示し、既存のZX計算結果を拡張した。 もう一つ難しいと思われる問題は、2つのダイアグラムが同じプロセスを表すかどうかを比較することである。 密接に関連する2つの問題は、$\mathrm{NP}^{\mathord{\#}\mathrm P}$-completeである。 最初の問題は、ダイアグラムとして表される2つのプロセスが与えられたとき、それらが等しくなる計算基底状態の存在を決定することである。 第二の問題は、与えられた図形の行列表現が与えられた数に等しいエントリを含むかどうかを確認することである。 我々の証明は、Cook-Levinの定理の証明を、${\mathord{\#}\mathrm P}$ oracleにアクセスできる非決定論的チューリングマシンから還元するものである。

The ZH calculus is a graphical language for quantum computation reasoning. The phase-free variant offers a simple set of generators that guarantee universality. ZH calculus is effective in MBQC and analysis of quantum circuits constructed with the universal gate set Toffoli+H. While circuits naturally translate to ZH diagrams, finding an ancilla-free circuit equivalent to a given diagram is hard. Here, we show that circuit extraction for phase-free ZH calculus is ${\mathord{\#}\mathrm P}$-hard, extending the existing result for ZX calculus. Another problem believed to be hard is comparing whether two diagrams represent the same process. We show that two closely related problems are $\mathrm{NP}^{\mathord{\#}\mathrm P}$-complete. The first problem is: given two processes represented as diagrams, determine the existence of a computational basis state on which they equalize. The second problem is checking whether the matrix representation of a given diagram contains an entry equal to a given number. Our proof adapts the proof of Cook-Levin theorem to a reduction from a non-deterministic Turing Machine with access to ${\mathord{\#}\mathrm P}$ oracle.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# どの質問に答えるべきか : 質問に対する回答予測

Which questions should I answer? Salience Prediction of Inquisitive Questions ( http://arxiv.org/abs/2404.10917v1 )

ライセンス: Link先を確認
Yating Wu, Ritika Mangla, Alexandros G. Dimakis, Greg Durrett, Junyi Jessy Li, (参考訳) オープンエンドで好奇心に駆られた質問は、議論処理(Kehler and Rohde, 2017; Onea, 2016)と理解(Prince, 2004)の不可欠な部分である。 NLP における最近の研究は LLM の質問生成機能を活用し、幅広い応用を拡大している。 しかし、多くの質問は与えられた文脈から呼び出すことができる。 では、どれを優先順位付けして答えを見つけるべきか? 言語学理論は、残念ながら、まだこの疑問に対する答えを提供していない。 本稿では,質問のサリエンス予測手法であるQSALIENCEについて述べる。 QSALIenceは1,766対(コンテキスト,質問)の言語学者が注釈付けしたサリエンススコアのデータセット上で命令調整される。 質問は、文章の理解を大幅に向上させるなら、サリエンスを高く評価する(Van Rooy, 2003)。 また,本論文では,有望な質問(Onea, 2016)と質問下討論(Roberts, 2012)を交えて回答する傾向が実証的に高いことを示す。 質問に対する回答が,ニュースの要約品質の指標であることを示すことで,我々の知見をさらに検証する。

Inquisitive questions -- open-ended, curiosity-driven questions people ask as they read -- are an integral part of discourse processing (Kehler and Rohde, 2017; Onea, 2016) and comprehension (Prince, 2004). Recent work in NLP has taken advantage of question generation capabilities of LLMs to enhance a wide range of applications. But the space of inquisitive questions is vast: many questions can be evoked from a given context. So which of those should be prioritized to find answers? Linguistic theories, unfortunately, have not yet provided an answer to this question. This paper presents QSALIENCE, a salience predictor of inquisitive questions. QSALIENCE is instruction-tuned over our dataset of linguist-annotated salience scores of 1,766 (context, question) pairs. A question scores high on salience if answering it would greatly enhance the understanding of the text (Van Rooy, 2003). We show that highly salient questions are empirically more likely to be answered in the same article, bridging potential questions (Onea, 2016) with Questions Under Discussion (Roberts, 2012). We further validate our findings by showing that answering salient questions is an indicator of summarization quality in news.
翻訳日:2024-04-18 17:52:27 公開日:2024-04-16
# テンソル積ランダム行列論

Tensor product random matrix theory ( http://arxiv.org/abs/2404.10919v1 )

ライセンス: Link先を確認
Alexander Altland, Tobias Micklitz, Joaquim Telles de Miranda, (参考訳) ランダム回路ネットワークのような複雑な相関量子系の進化は、絡み合いとエントロピーの両方の動的蓄積によって制御される。 ここでは、SYK-モデルの$G \Sigma$-functionalと不規則系のフィールド理論の融合として、初期積状態から最大エントロピーエルゴード状態まで、そのようなクロスオーバーダイナミクスの全範囲を顕微鏡的に記述することを意図した実時間場理論のアプローチを導入する。 このアプローチを最も単純な非自明な設定で示すために、結合されたランダム行列のテンソル積を考え、正確な対角化と比較する。

The evolution of complex correlated quantum systems such as random circuit networks is governed by the dynamical buildup of both entanglement and entropy. We here introduce a real-time field theory approach -- essentially a fusion of the $G \Sigma$-functional of the SYK-model and the field theory of disordered systems -- enigneered to microscopically describe the full range of such crossover dynamics: from initial product states to a maximum entropy ergodic state. To showcase this approach in the simplest nontrivial setting, we consider a tensor product of coupled random matrices, and compare to exact diagonalization.
翻訳日:2024-04-18 17:42:40 公開日:2024-04-16
# Tao: DLベースのマイクロアーキテクチャシミュレーション

Tao: Re-Thinking DL-based Microarchitecture Simulation ( http://arxiv.org/abs/2404.10921v1 )

ライセンス: Link先を確認
Santosh Pandey, Amir Yazdanbakhsh, Hang Liu, (参考訳) マイクロアーキテクチャシミュレータは、マイクロアーキテクチャ設計者が特定の設計要件を満たす新しいハードウェアを検証、評価、最適化するために必須のツールである。 高速で正確で詳細なマイクロアーキテクチャーシミュレーションの探求は何十年にもわたって続いているが、既存のシミュレーターは様々な面で優れている。 (i) 実行駆動シミュレーションは正確かつ詳細なものであるが、非常に遅く、設計には専門家レベルの経験が必要である。 (II) トレース駆動シミュレーションは, 高速なシミュレーションを追求するために実行トレースを再利用するが, 精度上の懸念に直面し, 大幅な高速化に失敗する。 三 深層学習(DL)に基づくシミュレーションは驚くほど高速であり、精度も極めて高いが、微構造ボトルネック解析に欠かせない適切な低レベルの微構造性能指標を提供することができない。 さらに、新しいマイクロアーキテクチャをシミュレートする際に、トレース再生とモデル再トレーニングからかなりのオーバーヘッドを導入する。 本稿では, 上記のシミュレーションパラダイムの利点と限界を再考し, DLに基づくシミュレーションを再設計するTAOを紹介した。 次に、自己注意を用いて入力機能とDLモデルを再設計し、様々なパフォーマンス指標の予測をサポートする。 第3に,マイクロアーキテクチャ非依存の埋め込み層を学習することで,異なるマイクロアーキテクチャ構成間の高速な移動学習を可能にし,従来のDLベースシミュレータの再学習オーバーヘッドを低減する手法を提案する。 以上の結果から,最新のDLベースの取り組みに対して,トレーニング時間とシミュレーション時間を18.06倍に短縮できる可能性が示唆された。

Microarchitecture simulators are indispensable tools for microarchitecture designers to validate, estimate, and optimize new hardware that meets specific design requirements. While the quest for a fast, accurate and detailed microarchitecture simulation has been ongoing for decades, existing simulators excel and fall short at different aspects: (i) Although execution-driven simulation is accurate and detailed, it is extremely slow and requires expert-level experience to design. (ii) Trace-driven simulation reuses the execution traces in pursuit of fast simulation but faces accuracy concerns and fails to achieve significant speedup. (iii) Emerging deep learning (DL)-based simulations are remarkably fast and have acceptable accuracy but fail to provide adequate low-level microarchitectural performance metrics crucial for microarchitectural bottleneck analysis. Additionally, they introduce substantial overheads from trace regeneration and model re-training when simulating a new microarchitecture. Re-thinking the advantages and limitations of the aforementioned simulation paradigms, this paper introduces TAO that redesigns the DL-based simulation with three primary contributions: First, we propose a new training dataset design such that the subsequent simulation only needs functional trace as inputs, which can be rapidly generated and reused across microarchitectures. Second, we redesign the input features and the DL model using self-attention to support predicting various performance metrics. Third, we propose techniques to train a microarchitecture agnostic embedding layer that enables fast transfer learning between different microarchitectural configurations and reduces the re-training overhead of conventional DL-based simulators. Our extensive evaluation shows {\ours} can reduce the overall training and simulation time by 18.06x over the state-of-the-art DL-based endeavors.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# 多言語大言語モデルを用いた多言語学習による多言語音声の理解

Teaching a Multilingual Large Language Model to Understand Multilingual Speech via Multi-Instructional Training ( http://arxiv.org/abs/2404.10922v1 )

ライセンス: Link先を確認
Pavel Denisov, Ngoc Thang Vu, (参考訳) 言語モデリングの最近の進歩は、様々な自然言語処理タスクが可能な大規模言語モデル(LLM)の出現につながっている。 テキストベースのタスクの成功にもかかわらず、LLMを音声領域に適用することは限定的で困難なままである。 本稿では,多言語LLMと多言語音声エンコーダを統合した新しいモデルBLOOMZMMSを提案する。 マルチインストラクショナル・トレーニング・アプローチを用いて,テキストから音声モダリティへの言語知識の伝達性を示す。 1900年に129の言語から書き起こされたデータを用いて実験を行い、多言語表現を効果的に学習し、多言語LLMと整合させることを確かめた。 この学習された表現は、最初はタスクの一般化の限界を示すが、多指導スタイルで合成対象を生成することでこの問題に対処する。 ゼロショット評価の結果、音声翻訳や多言語言語理解など、複数のタスクにまたがるアプローチの堅牢性を確認し、LLMを音声領域に適用するための新たな道を開いた。

Recent advancements in language modeling have led to the emergence of Large Language Models (LLMs) capable of various natural language processing tasks. Despite their success in text-based tasks, applying LLMs to the speech domain remains limited and challenging. This paper presents BLOOMZMMS, a novel model that integrates a multilingual LLM with a multilingual speech encoder, aiming to harness the capabilities of LLMs for speech recognition and beyond. Utilizing a multi-instructional training approach, we demonstrate the transferability of linguistic knowledge from the text to the speech modality. Our experiments, conducted on 1900 hours of transcribed data from 139 languages, establish that a multilingual speech representation can be effectively learned and aligned with a multilingual LLM. While this learned representation initially shows limitations in task generalization, we address this issue by generating synthetic targets in a multi-instructional style. Our zero-shot evaluation results confirm the robustness of our approach across multiple tasks, including speech translation and multilingual spoken language understanding, thereby opening new avenues for applying LLMs in the speech domain.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# Binder:二元ベクトルの順序埋め込みによる階層的概念表現

Binder: Hierarchical Concept Representation through Order Embedding of Binary Vectors ( http://arxiv.org/abs/2404.10924v1 )

ライセンス: Link先を確認
Croix Gyurek, Niloy Talukder, Mohammad Al Hasan, (参考訳) 自然言語の理解と生成には、順序に基づく表現を用いた概念の埋め込みが不可欠である。 伝統的な点ベクトルに基づく表現とは異なり、順序に基づく表現は表現ベクトルに幾何学的な制約を課し、一対の概念の間に存在するかもしれない様々な意味的関係を明示的に捉える。 既存の文献では、順序に基づく埋め込みに関するいくつかのアプローチが提案されており、主に階層的な関係を捉えることに焦点を当てている。 Boxの埋め込みは、リージョンベースの概念のリッチな表現を生成するが、その過程でシンプルさを犠牲にして、表現を学ぶためにカスタムメイドの最適化スキームを必要とする。 双曲埋め込みは、双曲空間の絶え間ない拡張性を利用して埋め込み品質を向上させるが、双曲空間において最適化のような勾配降下が単純ではないため、箱埋め込みと同じ運命に苦しむ。 本研究では,順序に基づく表現の新しい手法であるBinderを提案する。 Binderは埋め込みにバイナリベクトルを使用するため、埋め込みベクトルは他の方法よりもはるかに小さなフットプリントでコンパクトである。 Binderは、線形時間複雑性を持つ表現ベクトルを学習するための単純で効率的な最適化スキームを使用している。 我々の総合的な実験結果から、Binderは非常に正確で、表現タスク上での競合的な結果が得られることが示された。 しかしBinderは、間接的なクロージャリンク予測タスクにおいて、直接エッジからのみ概念埋め込みを学習できるという点でライバルと際立っており、既存の注文ベースのアプローチはすべて間接エッジに依存している。

For natural language understanding and generation, embedding concepts using an order-based representation is an essential task. Unlike traditional point vector based representation, an order-based representation imposes geometric constraints on the representation vectors for explicitly capturing various semantic relationships that may exist between a pair of concepts. In existing literature, several approaches on order-based embedding have been proposed, mostly focusing on capturing hierarchical relationships; examples include vectors in Euclidean space, complex, Hyperbolic, order, and Box Embedding. Box embedding creates region-based rich representation of concepts, but along the process it sacrifices simplicity, requiring a custom-made optimization scheme for learning the representation. Hyperbolic embedding improves embedding quality by exploiting the ever-expanding property of Hyperbolic space, but it also suffers from the same fate as box embedding as gradient descent like optimization is not simple in the Hyperbolic space. In this work, we propose Binder, a novel approach for order-based representation. Binder uses binary vectors for embedding, so the embedding vectors are compact with an order of magnitude smaller footprint than other methods. Binder uses a simple and efficient optimization scheme for learning representation vectors with a linear time complexity. Our comprehensive experimental results show that Binder is very accurate, yielding competitive results on the representation task. But Binder stands out from its competitors on the transitive closure link prediction task as it can learn concept embeddings just from the direct edges, whereas all existing order-based approaches rely on the indirect edges.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# 地球観測画像における空間的コンテキスト保存のための簡潔なタイリング戦略

A Concise Tiling Strategy for Preserving Spatial Context in Earth Observation Imagery ( http://arxiv.org/abs/2404.10927v1 )

ライセンス: Link先を確認
Ellianna Abrahams, Tasha Snow, Matthew R. Siegfried, Fernando Pérez, (参考訳) 対象物(OoI)の位置が不明で,クラス不明瞭化に空間的コンテキストを必要とする場合に,地球観測衛星画像の特定用途のために開発された新しいタイリング戦略であるFlip-n-Slideを提案する。 Flip-n-Slideは、OoIを複数のタイルの位置と向きで表現できる簡潔で最小限のアプローチである。 この戦略は、トレーニングセットに冗長性を導入することなく、スパース・コンテクスト情報の複数のビューを導入する。 タイル重なりごとに異なる変換置換を維持することにより、真のデータ分布を誤って表現することなく、トレーニングセットの一般化性を高めることができる。 Flip-n-Slideの有効性を,地球物理研究に必要なデータ生成物であるセマンティックセグメンテーションの課題において検証した。 Flip-n-Slideは、すべての評価指標において、タイルデータに対する従来の最先端化ルーチンよりも優れていた。 表現不足のクラスでは、Flip-n-Slideは15.8%の精度で精度を上げる。

We propose a new tiling strategy, Flip-n-Slide, which has been developed for specific use with large Earth observation satellite images when the location of objects-of-interest (OoI) is unknown and spatial context can be necessary for class disambiguation. Flip-n-Slide is a concise and minimalistic approach that allows OoI to be represented at multiple tile positions and orientations. This strategy introduces multiple views of spatio-contextual information, without introducing redundancies into the training set. By maintaining distinct transformation permutations for each tile overlap, we enhance the generalizability of the training set without misrepresenting the true data distribution. Our experiments validate the effectiveness of Flip-n-Slide in the task of semantic segmentation, a necessary data product in geophysical studies. We find that Flip-n-Slide outperforms the previous state-of-the-art augmentation routines for tiled data in all evaluation metrics. For underrepresented classes, Flip-n-Slide increases precision by as much as 15.8%.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# LLMem: 微調整済みLLMのためのGPUメモリ使用量の推定

LLMem: Estimating GPU Memory Usage for Fine-Tuning Pre-Trained LLMs ( http://arxiv.org/abs/2404.10933v1 )

ライセンス: Link先を確認
Taeho Kim, Yanming Wang, Vatshank Chaturvedi, Lokesh Gupta, Seyeon Kim, Yongin Kwon, Sangtae Ha, (参考訳) ハードウェアに制限のある微調整済みの大規模言語モデル(LLM)は、GPUメモリの制約による課題を提起する。 GPUのメモリ制約を軽減するために、様々な分散微調整法が提案されている。 しかし、与えられた環境でGPUのメモリ外問題を防止しつつ、高速な微調整を実現するための最も効果的な方法を決定することは、まだ不明である。 この課題に対処するために,複数のGPUに分散微調整手法を適用する際のGPUメモリ消費を推定し,最適手法を同定するLLMemを提案する。 我々は、トランスフォーマーベースのデコーダモデルの基本構造と各手法のメモリ使用率分布を利用して、微調整の前にGPUメモリ使用率推定を行う。 実験の結果、LLMemは1つのGPU上でのピークGPUメモリ使用量を正確に推定し、エラー率は最大1.6%である。 さらに、マルチGPUセットアップ上で10億以上のパラメータを持つLLMに分散微調整法を適用する場合、平均エラー率は3.0%である。

Fine-tuning pre-trained large language models (LLMs) with limited hardware presents challenges due to GPU memory constraints. Various distributed fine-tuning methods have been proposed to alleviate memory constraints on GPU. However, determining the most effective method for achieving rapid fine-tuning while preventing GPU out-of-memory issues in a given environment remains unclear. To address this challenge, we introduce LLMem, a solution that estimates the GPU memory consumption when applying distributed fine-tuning methods across multiple GPUs and identifies the optimal method. We conduct GPU memory usage estimation prior to fine-tuning, leveraging the fundamental structure of transformer-based decoder models and the memory usage distribution of each method. Experimental results show that LLMem accurately estimates peak GPU memory usage on a single GPU, with error rates of up to 1.6%. Additionally, it shows an average error rate of 3.0% when applying distributed fine-tuning methods to LLMs with more than a billion parameters on multi-GPU setups.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# Shears: ニューラルネットワークによる低ランクアダプタサーチによる非構造的疎結合性

Shears: Unstructured Sparsity with Neural Low-rank Adapter Search ( http://arxiv.org/abs/2404.10934v1 )

ライセンス: Link先を確認
J. Pablo Muñoz, Jinjie Yuan, Nilesh Jain, (参考訳) 近年,重み付きニューラルネットワークサーチ (NAS) が弾性低ランクアダプタ (LoRA) の探索空間を効果的に探索し,パラメータ効率のよい微調整 (PEFT) と大言語モデルの圧縮を可能にした。 本稿では,コスト効率のよいスペーサ性とニューラルローランクアダプタ探索(NLS)アルゴリズムの併用により,PEFT手法の効率が向上することを示す,Shearsと呼ばれる新しい手法を提案する。 結果は、他の方法と比較して、シアスの利点を示し、高いスパーシレベルに達しながら、精度を向上またはほとんど低下せず、1つのGPUを2時間使用した。

Recently, several approaches successfully demonstrated that weight-sharing Neural Architecture Search (NAS) can effectively explore a search space of elastic low-rank adapters (LoRA), allowing the parameter-efficient fine-tuning (PEFT) and compression of large language models. In this paper, we introduce a novel approach called Shears, demonstrating how the integration of cost-effective sparsity and a proposed Neural Low-rank adapter Search (NLS) algorithm can further improve the efficiency of PEFT approaches. Results demonstrate the benefits of Shears compared to other methods, reaching high sparsity levels while improving or with little drop in accuracy, utilizing a single GPU for a pair of hours.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# 時間ステップ予測による逆拡散による分子緩和

Molecular relaxation by reverse diffusion with time step prediction ( http://arxiv.org/abs/2404.10935v1 )

ライセンス: Link先を確認
Khaled Kahouli, Stefaan Simon Pierre Hessmann, Klaus-Robert Müller, Shinichi Nakajima, Stefan Gugler, Niklas Wolf Andreas Gebauer, (参考訳) 非平衡構造の平衡状態を見つける分子緩和は、反応性を理解するための計算化学の重要な構成要素である。 古典的な力場法はしばしば局所エネルギーの最小化に頼っているが、ニューラルネットワーク力場モデルは平衡構造と非平衡構造の両方を含む大きなラベル付きデータセットを必要とする。 そこで本研究では, 逆拡散による分子緩和であるMoreRedを提案する。これは, 非平衡構造を対応する平衡状態のノイズインスタンスとして扱う, 概念的, 純粋に統計的アプローチである。 生成拡散モデルを用いて任意のノイズの入力をデノナイズできるようにするため、新しい拡散時間ステップ予測器を導入する。 特に、モレレッドは複雑な物理ポテンシャルエネルギー曲面の代わりに、単純な擬似ポテンシャルエネルギー曲面を学習する。 非平衡構造の計算を完全に回避し、ラベル付けされていない平衡構造からなるデータセットを、はるかに小さく、計算的に安価に訓練する。 我々は、MoreRedを古典的な力場、平衡データと非平衡データの大規模なデータセットに基づいて訓練された同変ニューラルネットワーク力場、および半経験的強結合モデルと比較する。 これを定量的に評価するために、見いだされた平衡構造と参照平衡構造とDFTエネルギーとのルート平均二乗偏差を評価する。

Molecular relaxation, finding the equilibrium state of a non-equilibrium structure, is an essential component of computational chemistry to understand reactivity. Classical force field methods often rely on insufficient local energy minimization, while neural network force field models require large labeled datasets encompassing both equilibrium and non-equilibrium structures. As a remedy, we propose MoreRed, molecular relaxation by reverse diffusion, a conceptually novel and purely statistical approach where non-equilibrium structures are treated as noisy instances of their corresponding equilibrium states. To enable the denoising of arbitrarily noisy inputs via a generative diffusion model, we further introduce a novel diffusion time step predictor. Notably, MoreRed learns a simpler pseudo potential energy surface instead of the complex physical potential energy surface. It is trained on a significantly smaller, and thus computationally cheaper, dataset consisting of solely unlabeled equilibrium structures, avoiding the computation of non-equilibrium structures altogether. We compare MoreRed to classical force fields, equivariant neural network force fields trained on a large dataset of equilibrium and non-equilibrium data, as well as a semi-empirical tight-binding model. To assess this quantitatively, we evaluate the root-mean-square deviation between the found equilibrium structures and the reference equilibrium structures as well as their DFT energies.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# mm波車両システムにおけるビームトレーニング:ビーム選択のデカップリングのための機械学習

Beam Training in mmWave Vehicular Systems: Machine Learning for Decoupling Beam Selection ( http://arxiv.org/abs/2404.10936v1 )

ライセンス: Link先を確認
Ibrahim Kilinc, Ryan M. Dreifuerst, Junghoon Kim, Robert W. Heath Jr, (参考訳) コードブックベースのビーム選択はミリ波通信リンクを構成するための1つのアプローチである。 しかし、送信と受信のペアを再構成するために必要なオーバーヘッドは、非常にダイナミックな車両通信システムにおいて増大する。 位置情報を機械学習(ML)ビームレコメンデーションと組み合わせることで、ビームペア選択のオーバーヘッドを低減する方法である。 本稿では,ユーザ機器(UE)と基地局(BS)のビーム選択を分離するためのMLに基づく位置支援手法を開発する。 ビーム選択の切り離しによる性能ギャップを定量化するとともに,BSからUEの位置情報を分離する。 シミュレーションの結果、BSにおけるビーム選択と利用可能な位置情報との疎結合は、BSにおける接合ビームペア選択と同等であることがわかった。 さらに, 位置のない離間ビーム選択は, 十分なビーム対が通過した場合に, BSにおけるビーム対選択の性能に近づいた。

Codebook-based beam selection is one approach for configuring millimeter wave communication links. The overhead required to reconfigure the transmit and receive beam pair, though, increases in highly dynamic vehicular communication systems. Location information coupled with machine learning (ML) beam recommendation is one way to reduce the overhead of beam pair selection. In this paper, we develop ML-based location-aided approaches to decouple the beam selection between the user equipment (UE) and the base station (BS). We quantify the performance gaps due to decoupling beam selection and also disaggregating the UE's location information from the BS. Our simulation results show that decoupling beam selection with available location information at the BS performs comparable to joint beam pair selection at the BS. Moreover, decoupled beam selection without location closely approaches the performance of beam pair selection at the BS when sufficient beam pairs are swept.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# 言語のためのさらなる空間:検索が言語モデルに与える影響を探る

More Room for Language: Investigating the Effect of Retrieval on Language Models ( http://arxiv.org/abs/2404.10939v1 )

ライセンス: Link先を確認
David Samuel, Lucas Georges Gabriel Charpentier, Sondre Wold, (参考訳) Retrieval-augmented言語モデルは、標準言語モデリングの代替として有望なものだ。 事前学習中、これらのモデルは、言語モデリングの目的に役立つかもしれない文脈に関連のある情報を文書のコーパスで検索する。 本稿では、これらのモデルを完全に制御可能な環境で研究するための「理想的検索」手法を提案する。 本研究では,検索の強化が言語モデルの振る舞いにどのように影響するかを広範囲に評価する。 とりわけ、これらのモデルは以下のとおりである。 一 世界の知識を大幅に減らすこと。 二 現地の文脈及び単語間の依存関係を理解するのが得意であるが 三 グローバルな文脈の理解が苦手であること。

Retrieval-augmented language models pose a promising alternative to standard language modeling. During pretraining, these models search in a corpus of documents for contextually relevant information that could aid the language modeling objective. We introduce an 'ideal retrieval' methodology to study these models in a fully controllable setting. We conduct an extensive evaluation to examine how retrieval augmentation affects the behavior of the underlying language model. Among other things, we observe that these models: i) save substantially less world knowledge in their weights, ii) are better at understanding local context and inter-word dependencies, but iii) are worse at comprehending global context.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# グラフトランスニューラルネットを用いたニューロモルフィック・ビジョンベースモーションセグメンテーション

Neuromorphic Vision-based Motion Segmentation with Graph Transformer Neural Network ( http://arxiv.org/abs/2404.10940v1 )

ライセンス: Link先を確認
Yusra Alkendi, Rana Azzam, Sajid Javed, Lakmal Seneviratne, Yahya Zweiri, (参考訳) オブジェクトセグメンテーションの移動は、困難な環境でのロボットナビゲーションシステムのためのシーンダイナミクスの解釈に不可欠である。 ニューロモルフィック視覚センサは、その非同期性、高時間分解能、消費電力の低減により、運動知覚のために調整されている。 しかし、その非伝統的な出力は、空間的に疎かで時間的に密集した性質を活用するために、新しい知覚パラダイムを必要とする。 本稿では,GTNNと呼ばれるグラフトランスフォーマーニューラルネットワークを用いたイベントベース動作分割アルゴリズムを提案する。 提案アルゴリズムは,事象間の局所的および大域的時空間的相関を明らかにするために,一連の非線形変換によって3次元グラフとしてイベントストリームを処理する。 これらの相関関係に基づき、動いた物体に属する事象は、動的シーン幾何学の事前知識なしで背景から区切られる。 このアルゴリズムは、MOD、EV-IMO、および \textcolor{black}{EV-IMO2}などの公開データセットに基づいて、提案したトレーニングスキームを使用して、広範囲なデータセットの効率的なトレーニングを容易にする。 さらに,動的オブジェクトマスクを意識したイベントラベル作成(DOMEL)手法を導入し,イベントベース動作セグメンテーションデータセットの基底構造を近似的に生成する。 DOMELを使用して、記録したイベントデータセットをEMS-DOMEL(Motion Segmentation)にラベル付けしています。 厳密な実験は、GTNNが動的背景変動、動きパターン、そして様々な大きさと速度を持つ複数の動的物体の存在下で、最先端の手法より優れていることを示した、公開されていないいくつかのデータセットで実施されている。 GTNNは、モーションセグメンテーションの精度(IoU%)と検出率(DR%)において、平均9.4%と4.5%の増加で、大幅な性能向上を実現している。

Moving object segmentation is critical to interpret scene dynamics for robotic navigation systems in challenging environments. Neuromorphic vision sensors are tailored for motion perception due to their asynchronous nature, high temporal resolution, and reduced power consumption. However, their unconventional output requires novel perception paradigms to leverage their spatially sparse and temporally dense nature. In this work, we propose a novel event-based motion segmentation algorithm using a Graph Transformer Neural Network, dubbed GTNN. Our proposed algorithm processes event streams as 3D graphs by a series of nonlinear transformations to unveil local and global spatiotemporal correlations between events. Based on these correlations, events belonging to moving objects are segmented from the background without prior knowledge of the dynamic scene geometry. The algorithm is trained on publicly available datasets including MOD, EV-IMO, and \textcolor{black}{EV-IMO2} using the proposed training scheme to facilitate efficient training on extensive datasets. Moreover, we introduce the Dynamic Object Mask-aware Event Labeling (DOMEL) approach for generating approximate ground-truth labels for event-based motion segmentation datasets. We use DOMEL to label our own recorded Event dataset for Motion Segmentation (EMS-DOMEL), which we release to the public for further research and benchmarking. Rigorous experiments are conducted on several unseen publicly-available datasets where the results revealed that GTNN outperforms state-of-the-art methods in the presence of dynamic background variations, motion patterns, and multiple dynamic objects with varying sizes and velocities. GTNN achieves significant performance gains with an average increase of 9.4% and 4.5% in terms of motion segmentation accuracy (IoU%) and detection rate (DR%), respectively.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# 不公平の裏には何が隠されているのか : 強化学習におけるダイナミクスフェアネスの探求

What Hides behind Unfairness? Exploring Dynamics Fairness in Reinforcement Learning ( http://arxiv.org/abs/2404.10942v1 )

ライセンス: Link先を確認
Zhihong Deng, Jing Jiang, Guodong Long, Chengqi Zhang, (参考訳) 人種や性別などのセンシティブな属性を含む逐次的意思決定問題において、強化学習(RL)エージェントは、リターンを最大化しながら長期的な公正性を慎重に検討する必要がある。 近年の研究では様々なフェアネスの概念が提案されているが、RL問題における不公平性がどのように生じるかは定かではない。 本稿では,不平等の原因を因果レンズで調べることで,文献のこのギャップを解消する。 まず,データ生成過程を規定する因果関係を解析し,長期的幸福感に対する機密属性の影響を個別の構成要素に分解する。 次に、環境力学から生じる不平等を明示的に捉え、意思決定によって引き起こされたものや過去に受け継がれたものと区別する、ダイナミックスフェアネスという新しい概念を導入する。 この概念は、次の状態における期待される変化と、他の全てを一定に保ちながらセンシティブな属性の値を変更することで引き起こされる報酬を評価する必要がある。 この反事実概念を定量的に評価するために,データから信頼性の高い推定値が得られる識別式を導出する。 大規模実験は、強化学習における不平等の説明、検出、低減における提案手法の有効性を実証する。

In sequential decision-making problems involving sensitive attributes like race and gender, reinforcement learning (RL) agents must carefully consider long-term fairness while maximizing returns. Recent works have proposed many different types of fairness notions, but how unfairness arises in RL problems remains unclear. In this paper, we address this gap in the literature by investigating the sources of inequality through a causal lens. We first analyse the causal relationships governing the data generation process and decompose the effect of sensitive attributes on long-term well-being into distinct components. We then introduce a novel notion called dynamics fairness, which explicitly captures the inequality stemming from environmental dynamics, distinguishing it from those induced by decision-making or inherited from the past. This notion requires evaluating the expected changes in the next state and the reward induced by changing the value of the sensitive attribute while holding everything else constant. To quantitatively evaluate this counterfactual concept, we derive identification formulas that allow us to obtain reliable estimations from data. Extensive experiments demonstrate the effectiveness of the proposed techniques in explaining, detecting, and reducing inequality in reinforcement learning.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# マイクロ電極アレイ上の生体内ニューラルネットワークにおける刺激タイミングによる情報符号化と復号

Information encoding and decoding in in-vitro neural networks on micro electrode arrays through stimulation timing ( http://arxiv.org/abs/2404.10946v1 )

ライセンス: Link先を確認
Trym A. E. Lindell, Ola H. Ramstad, Ionna Sandvig, Axel Sandvig, Stefano Nichele, (参考訳) 生体内ニューラルネットワークを計算に利用する上での最大の課題は、ネットワークへのデータの入力とデコードのための優れた符号化とデコードスキームを見つけることである。 さらに、符号化スキームと復号スキームの組み合わせに対して最適なパラメータ設定を特定することは、この課題にさらなる複雑さをもたらす。 本研究では,刺激パルス間の遅延として情報を符号化し,線形に分離可能なスパイク応答を生成する刺激タイミングの境界と明度を同定する。 また,線形復号器の最適読み出しパラメータを,エポック長,時間ビンサイズ,エポックオフセットの形式で検討した。 以上の結果より,36msから436msまでの刺激タイミングは符号化に最適であり,読み出しパラメータの異なる組み合わせは誘発スパイク応答の異なる部分に最適である可能性が示唆された。

A primary challenge in utilizing in-vitro biological neural networks for computations is finding good encoding and decoding schemes for inputting and decoding data to and from the networks. Furthermore, identifying the optimal parameter settings for a given combination of encoding and decoding schemes adds additional complexity to this challenge. In this study we explore stimulation timing as an encoding method, i.e. we encode information as the delay between stimulation pulses and identify the bounds and acuity of stimulation timings which produce linearly separable spike responses. We also examine the optimal readout parameters for a linear decoder in the form of epoch length, time bin size and epoch offset. Our results suggest that stimulation timings between 36 and 436ms may be optimal for encoding and that different combinations of readout parameters may be optimal at different parts of the evoked spike response.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# 残差接続が自己監督型抽象特徴学習を損なう

Residual Connections Harm Self-Supervised Abstract Feature Learning ( http://arxiv.org/abs/2404.10947v1 )

ライセンス: Link先を確認
Xiao Zhang, Ruoxi Jiang, William Gao, Rebecca Willett, Michael Maire, (参考訳) 残差ネットワーク内のアイデンティティショートカットの強度を減衰させる重み付け係数を加えることで、最先端の自己教師付きマスク自動符号化(MAE)パラダイムにおける意味的特徴学習が大幅に向上することを示した。 MAEのVIT-B/16バックボーン内のIDショートカットの変更により、ImageNet上の線形探索精度は67.3%から72.3%に向上する。 この大きなギャップは、残差接続構造が勾配伝播を促進する上で重要な役割を担っているが、より深い層に浅い表現のエコーを注入することにより、抽象学習の能力を低下させる有害な副作用があることを示唆している。 層深さが増加するにつれてアイデンティティ接続の寄与を単調に減少させる定式化により、この欠点を緩和する。 我々の設計は、ネットワークのトレーニング容易性に影響を与えることなく、機能抽象化の段階的な開発を促進する。 修正された残差ネットワークで学習した表現を分析し、低効率な特徴ランクと下流タスク性能の相関関係を見出した。

We demonstrate that adding a weighting factor to decay the strength of identity shortcuts within residual networks substantially improves semantic feature learning in the state-of-the-art self-supervised masked autoencoding (MAE) paradigm. Our modification to the identity shortcuts within a VIT-B/16 backbone of an MAE boosts linear probing accuracy on ImageNet from 67.3% to 72.3%. This significant gap suggests that, while residual connection structure serves an essential role in facilitating gradient propagation, it may have a harmful side effect of reducing capacity for abstract learning by virtue of injecting an echo of shallower representations into deeper layers. We ameliorate this downside via a fixed formula for monotonically decreasing the contribution of identity connections as layer depth increases. Our design promotes the gradual development of feature abstractions, without impacting network trainability. Analyzing the representations learned by our modified residual networks, we find correlation between low effective feature rank and downstream task performance.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# 工学システムのための人間-アルゴリズム協調ベイズ最適化

Human-Algorithm Collaborative Bayesian Optimization for Engineering Systems ( http://arxiv.org/abs/2404.10949v1 )

ライセンス: Link先を確認
Tom Savage, Ehecatl Antonio del Rio Chanona, (参考訳) ベイズ最適化は、高価で評価しやすい関数や、勾配が容易に得られない関数の最適化のために、ケミカルエンジニアリングを通じてうまく適用されてきた。 しかし、ドメインの専門家は、完全に自動化された意思決定アプローチで見落とされ、人間の入力を含める必要がある貴重な物理的洞察を持っていることが多い。 本稿では、協調ベイズ最適化のアプローチを概説することにより、データ駆動型意思決定ループに人間を再導入する。 我々の方法論は、人間が連続的な選択よりも離散的な選択を行う方が効率的であるという仮説を利用しており、専門家が重要な早期決定に影響を及ぼすことを可能にする。 離散決定理論と並行して高スループット(バッチ)ベイズ最適化を適用し、ドメインエキスパートが実験の選択に影響を及ぼすことを可能にする。 イテレーション毎に多目的アプローチを適用して、高いユーティリティと合理的に異なる2つの代替ソリューションのセットを作ります。 専門家はこのセットから望ましいソリューションを選択し、ベイズ最適化の利点を維持しながら、専門家の知識を取り入れ、説明責任を向上させる。 本稿では, バイオプロセス最適化やリアクトル幾何学設計など, 応用および数値ケーススタディにまたがって, 非情報処理者の場合においても, 標準的なベイズ最適化の後悔を回復させるアルゴリズムを実証する。 連続的専門家の意見を含めることで、我々の手法はより高速な収束を可能にし、エンジニアリングシステムにおけるベイズ最適化のアカウンタビリティを向上させることができる。

Bayesian optimization has been successfully applied throughout Chemical Engineering for the optimization of functions that are expensive-to-evaluate, or where gradients are not easily obtainable. However, domain experts often possess valuable physical insights that are overlooked in fully automated decision-making approaches, necessitating the inclusion of human input. In this article we re-introduce the human back into the data-driven decision making loop by outlining an approach for collaborative Bayesian optimization. Our methodology exploits the hypothesis that humans are more efficient at making discrete choices rather than continuous ones and enables experts to influence critical early decisions. We apply high-throughput (batch) Bayesian optimization alongside discrete decision theory to enable domain experts to influence the selection of experiments. At every iteration we apply a multi-objective approach that results in a set of alternate solutions that have both high utility and are reasonably distinct. The expert then selects the desired solution for evaluation from this set, allowing for the inclusion of expert knowledge and improving accountability, whilst maintaining the advantages of Bayesian optimization. We demonstrate our approach across a number of applied and numerical case studies including bioprocess optimization and reactor geometry design, demonstrating that even in the case of an uninformed practitioner our algorithm recovers the regret of standard Bayesian optimization. Through the inclusion of continuous expert opinion, our approach enables faster convergence, and improved accountability for Bayesian optimization in engineering systems.
翻訳日:2024-04-18 17:42:39 公開日:2024-04-16
# 言語モデルはオリンピックプログラミングを解けるか?

Can Language Models Solve Olympiad Programming? ( http://arxiv.org/abs/2404.10952v1 )

ライセンス: Link先を確認
Quan Shi, Michael Tang, Karthik Narasimhan, Shunyu Yao, (参考訳) オリンピアードの計算には、効率的なコードを生成することに加えて、複雑なアルゴリズム推論、パズルの解法を必要とする、人間にとって最も難しい問題が含まれている。 しかし、言語モデル(LM)を評価する領域として研究されている。 本稿では,USACOベンチマークをUSA Computing Olympiadから307の問題を抽出し,高品質な単体テスト,参照コード,各問題の公式解析を行った。 これらのリソースは、競争力のあるプログラミングのための様々なLM推論手法を初めて構築し、テストすることを可能にする。 GPT-4 は 8.7% パス@1 の精度でゼロショットチェーン・オブ・シークレット・プロンプトでしか達成できず、我々の最良の推論手法は自己回帰とエピソード的知識による検索の組み合わせにより 20.2% に改善されている。 しかし、これはベンチマークの解決には程遠い。 残りの課題をよりよく理解するために、我々は新しい人間-イン-ザ-ループ研究を設計し、GPT-4がこれまでどんなモデルや方法でも解けなかった15の問題のうち13を、少数の目標ヒントで解決できることを驚くべきことに見出した。 我々のベンチマーク、ベースライン法、定量化結果、質的分析は、基盤的、創造的、アルゴリズム的推論によるLMへの最初のステップとなる。

Computing olympiads contain some of the most challenging problems for humans, requiring complex algorithmic reasoning, puzzle solving, in addition to generating efficient code. However, it has been understudied as a domain to evaluate language models (LMs). In this paper, we introduce the USACO benchmark with 307 problems from the USA Computing Olympiad, along with high-quality unit tests, reference code, and official analyses for each problem. These resources enable us to construct and test a range of LM inference methods for competitive programming for the first time. We find GPT-4 only achieves a 8.7% pass@1 accuracy with zero-shot chain-of-thought prompting, and our best inference method improves it to 20.2% using a combination of self-reflection and retrieval over episodic knowledge. However, this is far from solving the benchmark. To better understand the remaining challenges, we design a novel human-in-the-loop study and surprisingly find that a small number of targeted hints enable GPT-4 to solve 13 out of 15 problems previously unsolvable by any model and method. Our benchmark, baseline methods, quantitative results, and qualitative analysis serve as an initial step toward LMs with grounded, creative, and algorithmic reasoning.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-16
# スタック化による個人化フェデレーション学習

Personalized Federated Learning via Stacking ( http://arxiv.org/abs/2404.10957v1 )

ライセンス: Link先を確認
Emilio Cantu-Cervini, (参考訳) 従来のフェデレートラーニング(FL)手法は、生データを交換することなく、単一のグローバルモデルを協調的にトレーニングする。 対照的に、パーソナライズド・フェデレート・ラーニング(PFL)技術は、個々のクライアントのデータに合わせた複数のモデルを作成することを目的としています。 本稿では、クライアントが相互にプライバシ保護モデルを直接送信し、ベースモデルとして使用し、プライベートデータ上でメタモデルをトレーニングする、階層化された一般化に基づく新しいパーソナライズ手法を提案する。 当社のアプローチは柔軟で、さまざまなプライバシ保護技術やモデルタイプを調整し、水平、ハイブリッド、垂直に分割されたフェデレーションに適用できます。 さらに、各クライアントのフェデレーションへの貢献を評価するための自然なメカニズムを提供する。 多様なシミュレーションデータの不均一性シナリオの包括的評価を通じて,本手法の有効性を実証する。

Traditional Federated Learning (FL) methods typically train a single global model collaboratively without exchanging raw data. In contrast, Personalized Federated Learning (PFL) techniques aim to create multiple models that are better tailored to individual clients' data. We present a novel personalization approach based on stacked generalization where clients directly send each other privacy-preserving models to be used as base models to train a meta-model on private data. Our approach is flexible, accommodating various privacy-preserving techniques and model types, and can be applied in horizontal, hybrid, and vertically partitioned federations. Additionally, it offers a natural mechanism for assessing each client's contribution to the federation. Through comprehensive evaluations across diverse simulated data heterogeneity scenarios, we showcase the effectiveness of our method.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-16
# LLMの不確かさによる安全性向上と幻覚の低減

Uncertainty-Based Abstention in LLMs Improves Safety and Reduces Hallucinations ( http://arxiv.org/abs/2404.10960v1 )

ライセンス: Link先を確認
Christian Tomani, Kamalika Chaudhuri, Ivan Evtimov, Daniel Cremers, Mark Ibrahim, (参考訳) 大きな言語モデル(LLM)の実践的デプロイに対する大きな障壁は、信頼性の欠如である。 このことが特に顕著な3つの状況は、正しさ、未解決の質問に対する幻覚、安全性である。 人間のように、不確実性を理解する能力があるため、私たちが知らない質問への答えを控えるべきです。 分類における類似のアプローチから着想を得た本研究では,質問応答領域内のLLMの文脈において,棄却の有効性と有効性について検討した。 In-Dialogue Uncertainty (InDU) と呼ばれる2種類の不確実性, 統計的不確実性尺度, 明瞭な言語化尺度について検討した。 これらの不確実性対策とRLHF(Reinforcement Learning with Human Feedback)が組み合わさったモデルを用いて、適切な種類の不確実性尺度に基づく棄権がLLMの信頼性を高めることを示す。 非常に不確実なサンプルだけを犠牲にすることで、正しさを2%から8%向上させ、解答不能な質問を正しく識別することで幻覚の50%を回避し、計算オーバーヘッドがほとんどないまま、安全性を70%から99%向上させることができる。

A major barrier towards the practical deployment of large language models (LLMs) is their lack of reliability. Three situations where this is particularly apparent are correctness, hallucinations when given unanswerable questions, and safety. In all three cases, models should ideally abstain from responding, much like humans, whose ability to understand uncertainty makes us refrain from answering questions we don't know. Inspired by analogous approaches in classification, this study explores the feasibility and efficacy of abstaining while uncertain in the context of LLMs within the domain of question-answering. We investigate two kinds of uncertainties, statistical uncertainty metrics and a distinct verbalized measure, termed as In-Dialogue Uncertainty (InDU). Using these uncertainty measures combined with models with and without Reinforcement Learning with Human Feedback (RLHF), we show that in all three situations, abstention based on the right kind of uncertainty measure can boost the reliability of LLMs. By sacrificing only a few highly uncertain samples we can improve correctness by 2% to 8%, avoid 50% hallucinations via correctly identifying unanswerable questions and increase safety by 70% up to 99% with almost no additional computational overhead.
翻訳日:2024-04-18 15:43:59 公開日:2024-04-16
# エントロピー正規化による平均場変分推論の拡張:理論と計算

Extending Mean-Field Variational Inference via Entropic Regularization: Theory and Computation ( http://arxiv.org/abs/2404.09113v2 )

ライセンス: Link先を確認
Bohan Wu, David Blei, (参考訳) 変分推論 (VI) は高次元ベイズモデルに対する近似推論の一般的な方法として登場した。 本稿では、エントロピー正則化($\Xi$-variational inference($\Xi$-VI)と呼ばれる)を通じて、ナイーブ平均場を拡張する新しいVI法を提案する。 Xi$-VI はエントロピック最適輸送問題と密接な関係を持ち、計算効率の良いシンクホーンアルゴリズムの恩恵を受けている。 正則化パラメータによって依存度が下降する真の後続依存性を,$\Xi$-variational rearsが効果的に回復することを示す。 パラメータ空間の次元性が$\Xi$-variational approximationの精度およびそれが計算上の考慮にどう影響するかを解析し、$\Xi$-VIにおける統計計算トレードオフの粗い特徴を与える。 また、$\Xi$-VIの頻繁な性質を調査し、一貫性、漸近正規性、高次元漸近性、アルゴリズム安定性について結果を確立する。 この手法を用いて多項式時間近似推論を実現するのに十分な基準を提供する。 最後に、シミュレーションおよび実データに対する平均場変動推定に対する$\Xi$-VIの実用的利点を示す。

Variational inference (VI) has emerged as a popular method for approximate inference for high-dimensional Bayesian models. In this paper, we propose a novel VI method that extends the naive mean field via entropic regularization, referred to as $\Xi$-variational inference ($\Xi$-VI). $\Xi$-VI has a close connection to the entropic optimal transport problem and benefits from the computationally efficient Sinkhorn algorithm. We show that $\Xi$-variational posteriors effectively recover the true posterior dependency, where the dependence is downweighted by the regularization parameter. We analyze the role of dimensionality of the parameter space on the accuracy of $\Xi$-variational approximation and how it affects computational considerations, providing a rough characterization of the statistical-computational trade-off in $\Xi$-VI. We also investigate the frequentist properties of $\Xi$-VI and establish results on consistency, asymptotic normality, high-dimensional asymptotics, and algorithmic stability. We provide sufficient criteria for achieving polynomial-time approximate inference using the method. Finally, we demonstrate the practical advantage of $\Xi$-VI over mean-field variational inference on simulated and real data.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-16
# 複数の不均一な結果を持つゲノムデータの因果推論

Causal Inference for Genomic Data with Multiple Heterogeneous Outcomes ( http://arxiv.org/abs/2404.09119v2 )

ライセンス: Link先を確認
Jin-Hong Du, Zhenghao Zeng, Edward H. Kennedy, Larry Wasserman, Kathryn Roeder, (参考訳) 単一細胞RNAシークエンシング技術のゲノム学における標準的アプローチへの進化により、単一細胞レベルの測定に基づいてコホートレベルの因果推論を行うことが可能になった。 しかし、個々の遺伝子発現のレベルは直接観察可能ではなく、代わりに、個々の細胞からの反復的なプロキシ測定のみが利用可能であり、多くの遺伝子について基礎となる結果を推定する導出結果を与える。 本稿では,各ユニットの応答が利用可能である場合に,複数の結果の通常の設定を包含する,二重頑健な推定のための一般的な半パラメトリック推論フレームワークを提案する。 不均一な結果の因果効果を確実に定量化するために, 解析を標準化された平均処理効果と定量処理効果に専門化する。 これを通じて、Von Mises展開と推定方程式から導かれる2つの頑健な推定子に対する半パラメトリック推論結果の使用を実証する。 ガウス乗算器ブートストラップに基づく複数のテスト手順は、二重頑健な推定器が偽発見超越率を制御するように調整されている。 単細胞CRISPR摂動解析と個体レベルでの差分式解析の応用は,提案手法の有用性を実証し,ゲノム学における因果推論のための異なる推定値の利用に関する知見を提供する。

With the evolution of single-cell RNA sequencing techniques into a standard approach in genomics, it has become possible to conduct cohort-level causal inferences based on single-cell-level measurements. However, the individual gene expression levels of interest are not directly observable; instead, only repeated proxy measurements from each individual's cells are available, providing a derived outcome to estimate the underlying outcome for each of many genes. In this paper, we propose a generic semiparametric inference framework for doubly robust estimation with multiple derived outcomes, which also encompasses the usual setting of multiple outcomes when the response of each unit is available. To reliably quantify the causal effects of heterogeneous outcomes, we specialize the analysis to standardized average treatment effects and quantile treatment effects. Through this, we demonstrate the use of the semiparametric inferential results for doubly robust estimators derived from both Von Mises expansions and estimating equations. A multiple testing procedure based on Gaussian multiplier bootstrap is tailored for doubly robust estimators to control the false discovery exceedance rate. Applications in single-cell CRISPR perturbation analysis and individual-level differential expression analysis demonstrate the utility of the proposed methods and offer insights into the usage of different estimands for causal inference in genomics.
翻訳日:2024-04-18 12:46:40 公開日:2024-04-16
# 光子を用いたハードウェアランダム数生成のためのデータ解析法

Data Analysis Methods Preliminaries for a Photon-based Hardware Random Number Generator ( http://arxiv.org/abs/2404.09395v2 )

ライセンス: Link先を確認
Dmitriy Beznosko, Keith Driscoll, Fernando Guadarrama, Steven Mai, Nikolas Thornton, (参考訳) 現代の世界では、高品質な乱数が必要である。 サイバーセキュリティの暗号化キーから、科学的使用のためのモデルやシミュレーションまで、このランダムな数字は高品質で、迅速に達成できることが重要です。 乱数生成の一般的な解決策の1つは擬ランダム数生成器(PRNG)である。 PRNGは、予測不可能な現象を数または文字列に量子化し、そのシードに基づいてランダムに数を生成するアルゴリズムに入力することで、ランダムな数を生成する。 種を見つけるのが容易な場所には、ユーザのマウスの動きやマシンのアップタイムがある。 しかしこれらは擬似ランダムのみであり、同じ種が2回与えられた場合、PRNGは同じ「ランダム」出力を生成する。 これはMinecraftのようなゲームには最適ですが、サイバーセキュリティ暗号化キー生成には向いていません。 ハードウェア乱数生成器(HRNG)を用いることで、PRNGの欠陥に影響を受けない乱数を高速に得ることができる。

High quality random numbers are necessary in the modern world. Ranging from encryption keys in cyber security to models and simulations for scientific use: it's important that these random numbers are of high quality and quickly attainable. One common solution to the generation of random numbers is that of pseudo-random number generators, or PRNGs. PRNGs generate random numbers by first quantifying some unpredictable phenomena into a number or string and feeding it into an algorithm which yields numbers randomly based on that seed. Easy places to find seeds include the user's mouse movements or the machine's uptime. These are only pseudorandom, however, as if given the same seed twice, the PRNG would generate the same 'random' output. This is great for games like Minecraft, but not so great for cybersecurity encryption key generation. By using a hardware random number generator (HRNG), random numbers that are not susceptible to the flaws found in PRNGs can be attained at a high rate.
翻訳日:2024-04-18 12:36:56 公開日:2024-04-16
# SMap:インターネット全体のスポーフィングスキャン

SMap: Internet-wide Scanning for Spoofing ( http://arxiv.org/abs/2003.05813v4 )

ライセンス: Link先を確認
Tianxiang Dai, Haya Shulman, (参考訳) 攻撃から身を守るために、ネットワークは入力フィルタリング、すなわちスプーフされたIPアドレスから送信されるインバウンドパケットをブロックする必要がある。 これは広く知られているベストプラクティスであるが、スプーフパケットをブロックしないネットワークがどれくらいあるかは定かではない。 インターネット規模でのスプーファビリティの程度を推測することは困難であり、既存の研究では、ネットワークスタックの欠陥のある実装でサーバを運用するネットワークを計測するか、ボランティアネットワークに測定ソフトウェアをインストールするか、トレーサルートループのような特定の特性を仮定するかといった、インターネットネットワークの限られたセットしかカバーしていない。 スプーフィング測定のカバレッジ向上が重要である。 本研究では,入力フィルタリングのインターネット全体での研究を行う最初のスキャナであるSpowing Mapper(SMap)を紹介する。 SMapは、ほぼすべてのインターネットネットワークに存在する標準プロトコルを利用するネットワークの偽造性を評価する。 その結果、インターネット上の全自律システム(ASes)の69.8%がスプーフパケットをフィルタリングしていないことが分かり、46880の新しいスポーフ可能なASesが検出された。 当社のSMapによる計測は,インターネットにおけるイングレスフィルタリングの展開を包括的に見るとともに,2021年5月までの2年間にわたってスプーフパケットをフィルタリングする際の改善も行った。 我々は、SMapで連続的なインターネット全体のデータ収集を行い、スプーフィング評価から統計を表示するために、https://smap.cad.sit.fraunhofer.deにWebサービスを設置した。 我々のデータセットと、SMap(実装とソースコード)を公開して、研究者が結果の再現と検証を可能にします。

To protect themselves from attacks, networks need to enforce ingress filtering, i.e., block inbound packets sent from spoofed IP addresses. Although this is a widely known best practice, it is still not clear how many networks do not block spoofed packets. Inferring the extent of spoofability at Internet scale is challenging and despite multiple efforts the existing studies currently cover only a limited set of the Internet networks: they can either measure networks that operate servers with faulty network-stack implementations, or require installation of the measurement software on volunteer networks, or assume specific properties, like traceroute loops. Improving coverage of the spoofing measurements is critical. In this work we present the Spoofing Mapper (SMap): the first scanner for performing Internet-wide studies of ingress filtering. SMap evaluates spoofability of networks utilising standard protocols that are present in almost any Internet network. We applied SMap for Internet-wide measurements of ingress filtering: we found that 69.8% of all the Autonomous Systems (ASes) in the Internet do not filter spoofed packets and found 46880 new spoofable ASes which were not identified in prior studies. Our measurements with SMap provide the first comprehensive view of ingress filtering deployment in the Internet as well as remediation in filtering spoofed packets over a period of two years until May 2021. We set up a web service at https://smap.cad.sit.fraunhofer.de to perform continual Internet-wide data collection with SMap and display statistics from spoofing evaluation. We make our datasets as well as the SMap (implementation and the source code) publicly available to enable researchers to reproduce and validate our results, as well as to continually keep track of changes in filtering spoofed packets in the Internet.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-16
# 相互情報正規化政策グラディエントによるプライバシー規制政策

Privacy-Constrained Policies via Mutual Information Regularized Policy Gradients ( http://arxiv.org/abs/2012.15019v3 )

ライセンス: Link先を確認
Chris Cundy, Rishi Desai, Stefano Ermon, (参考訳) 実世界の意思決定問題に強化学習技術がますます適用されるにつれて、これらのアルゴリズムが潜在的に敏感な情報を使用する方法に注意が向けられている。 報酬を最大化しつつ、行動を通じて特定の機密状態変数の開示を最小限に抑えながら、報酬を最大化する政策を訓練する課題を考察する。 この設定が、シーケンシャルな意思決定のためのプライバシにおける現実世界の問題をどのようにカバーしているかの例を示す。 本稿では,政策グラデーションの枠組みにおいて,センシティブな状態と行動の間の相互情報(MI)に基づく正規化器を導入することで,この問題を解決する。 プライバシ制約のあるポリシーを最適化するためのモデルに基づく確率勾配推定器を開発した。 また、モデルフリー設定で最適化可能なMI正規化器を主MI正規化器の上限として機能する代替MI正規化器や、動的に異なる環境で使用できる強力な直接推定器についても論じる。 我々は、情報開示の相互情報定式化と、従来の微分プライベートなRLにおける研究を対比する。 実験結果から,高次元課題においてもセンシティブな状態を隠蔽する政策が得られた。

As reinforcement learning techniques are increasingly applied to real-world decision problems, attention has turned to how these algorithms use potentially sensitive information. We consider the task of training a policy that maximizes reward while minimizing disclosure of certain sensitive state variables through the actions. We give examples of how this setting covers real-world problems in privacy for sequential decision-making. We solve this problem in the policy gradients framework by introducing a regularizer based on the mutual information (MI) between the sensitive state and the actions. We develop a model-based stochastic gradient estimator for optimization of privacy-constrained policies. We also discuss an alternative MI regularizer that serves as an upper bound to our main MI regularizer and can be optimized in a model-free setting, and a powerful direct estimator that can be used in an environment with differentiable dynamics. We contrast previous work in differentially-private RL to our mutual-information formulation of information disclosure. Experimental results show that our training method results in policies that hide the sensitive state, even in challenging high-dimensional tasks.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-16
# PPT正方形対流について

On PPT Square Conjecture ( http://arxiv.org/abs/2108.01588v2 )

ライセンス: Link先を確認
Wladyslaw Adam Majewski, (参考訳) PPT二乗予想の詳細な解析が与えられる。

A detailed analysis of the PPT square conjecture is given.
翻訳日:2024-04-18 03:27:13 公開日:2024-04-16
# Ghost-dil-NetVLAD: 視覚的位置認識のための軽量ニューラルネットワーク

Ghost-dil-NetVLAD: A Lightweight Neural Network for Visual Place Recognition ( http://arxiv.org/abs/2112.11679v2 )

ライセンス: Link先を確認
Qingyuan Gong, Yu Liu, Liqiang Zhang, Renhe Liu, (参考訳) 視覚的位置認識(VPR)は、膨大な計算コストと高い認識性能のバランスの取れない課題である。 軽量畳み込みニューラルネットワーク(CNN)の実用的特徴抽出能力と,局所集約型ディスクリプタ(VLAD)層のベクトルのトレインビリティにより,GhostCNNと呼ばれるフロントエンド認識モデルと学習可能なVLAD層をバックエンドとして構成した,軽量に制御されたエンドツーエンドニューラルネットワークを提案する。 GhostCNNは軽量CNNベースのアーキテクチャであるGhostモジュールに基づいている。 従来の畳み込み処理の代わりに線形演算を使って冗長な特徴マップを生成することができ、計算資源と認識精度のトレードオフが良好になる。 提案する軽量モデルをさらに強化するため,Ghostモジュールに拡張畳み込みを加えて,より空間的意味情報を含む特徴を抽出し,精度を向上する。 最後に、一般的な公開ベンチマークとプライベートデータセットで実施された豊富な実験により、提案したニューラルネットワークは、それぞれVGG16-NetVLADのFLOPとパラメータを99.04%、80.16%削減することを確認した。 さらに、どちらのモデルも同様の精度を実現している。

Visual place recognition (VPR) is a challenging task with the unbalance between enormous computational cost and high recognition performance. Thanks to the practical feature extraction ability of the lightweight convolution neural networks (CNNs) and the train-ability of the vector of locally aggregated descriptors (VLAD) layer, we propose a lightweight weakly supervised end-to-end neural network consisting of a front-ended perception model called GhostCNN and a learnable VLAD layer as a back-end. GhostCNN is based on Ghost modules that are lightweight CNN-based architectures. They can generate redundant feature maps using linear operations instead of the traditional convolution process, making a good trade-off between computation resources and recognition accuracy. To enhance our proposed lightweight model further, we add dilated convolutions to the Ghost module to get features containing more spatial semantic information, improving accuracy. Finally, rich experiments conducted on a commonly used public benchmark and our private dataset validate that the proposed neural network reduces the FLOPs and parameters of VGG16-NetVLAD by 99.04% and 80.16%, respectively. Besides, both models achieve similar accuracy.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-16
# CoNICチャレンジにおけるデータ拡張によるマルチスケールSwinTransformer-HTCの利用

Using Multi-scale SwinTransformer-HTC with Data augmentation in CoNIC Challenge ( http://arxiv.org/abs/2202.13588v3 )

ライセンス: Link先を確認
Chia-Yen Lee, Hsiang-Chin Chien, Ching-Ping Wang, Hong Yen, Kai-Wen Zhen, Hong-Kun Lin, (参考訳) 大腸癌は世界中で最も多いがんの1つであり、早期病理検査は非常に重要である。 しかし、臨床におけるH&E画像上の細胞数とタイプを特定するのに時間と労力がかかる。 そのため、CoNIC Challenge 2022により、病理領域からのH&E画像の自動分割と分類、および細胞組成の計数が提案される。 この課題に対して,HTC を用いたマルチスケール Swin トランスフォーマーを提案するとともに,既知の正規化手法を適用して拡張データを生成する。 最後に,マルチスケールが異なるスケールの特徴を識別する上で重要な役割を担い,モデル認識の促進がもたらされた。

Colorectal cancer is one of the most common cancers worldwide, so early pathological examination is very important. However, it is time-consuming and labor-intensive to identify the number and type of cells on H&E images in clinical. Therefore, automatic segmentation and classification task and counting the cellular composition of H&E images from pathological sections is proposed by CoNIC Challenge 2022. We proposed a multi-scale Swin transformer with HTC for this challenge, and also applied the known normalization methods to generate more augmentation data. Finally, our strategy showed that the multi-scale played a crucial role to identify different scale features and the augmentation arose the recognition of model.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-16
# 画像登録のためのプライバシ保護

Privacy Preserving Image Registration ( http://arxiv.org/abs/2205.10120v7 )

ライセンス: Link先を確認
Riccardo Taiello, Melek Önen, Francesco Capano, Olivier Humbert, Marco Lorenzi, (参考訳) 画像登録は医用画像の応用において重要な課題であり、医用画像を共通の空間参照フレームで表現することができる。 画像登録への現在のアプローチは、画像の内容が通常透明な形でアクセス可能であるという仮定に基づいており、そこから空間変換が推定される。 医用画像の繊細な性質は、最終的にプライバシー制約の下で解析を必要とし、画像の内容がオープンに共有されることを防ぎ、プライバシー保護体制下での画像登録の問題を定式化し、画像が機密であり、明確に開示できないことを前提としている。 我々は、従来の登録パラダイムを拡張して、セキュアなマルチパーティ計算や同型暗号化といった高度な暗号化ツールを考慮し、基礎となるデータを漏洩することなく操作の実行を可能にすることにより、私たちのプライバシ保護画像登録フレームワークを導出する。 高次元における暗号ツールの性能とスケーラビリティの問題を克服するために、勾配近似を用いて画像登録操作を最適化する手法を提案し、また、同型暗号化トラフパッキングの使用を再検討することにより、大規模行列の効率的な暗号化と乗算を可能にする。 我々は、線形および非線形登録問題におけるプライバシ保護フレームワークを実証し、標準の非プライベート登録問題に対する精度とスケーラビリティを評価した。 以上の結果から, 画像登録のためのプライバシー保護が実現可能であり, 医用画像の高感度化にも適用可能であることが示唆された。

Image registration is a key task in medical imaging applications, allowing to represent medical images in a common spatial reference frame. Current approaches to image registration are generally based on the assumption that the content of the images is usually accessible in clear form, from which the spatial transformation is subsequently estimated. This common assumption may not be met in practical applications, since the sensitive nature of medical images may ultimately require their analysis under privacy constraints, preventing to openly share the image content.In this work, we formulate the problem of image registration under a privacy preserving regime, where images are assumed to be confidential and cannot be disclosed in clear. We derive our privacy preserving image registration framework by extending classical registration paradigms to account for advanced cryptographic tools, such as secure multi-party computation and homomorphic encryption, that enable the execution of operations without leaking the underlying data. To overcome the problem of performance and scalability of cryptographic tools in high dimensions, we propose several techniques to optimize the image registration operations by using gradient approximations, and by revisiting the use of homomorphic encryption trough packing, to allow the efficient encryption and multiplication of large matrices. We demonstrate our privacy preserving framework in linear and non-linear registration problems, evaluating its accuracy and scalability with respect to standard, non-private counterparts. Our results show that privacy preserving image registration is feasible and can be adopted in sensitive medical imaging applications.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-16
# 絡み合い浄化の繰り返しプロトコルにおける最適2量子ゲート

Optimal two-qubit gates in recurrence protocols of entanglement purification ( http://arxiv.org/abs/2205.12091v3 )

ライセンス: Link先を確認
Francesco Preti, Tommaso Calarco, Juan Mauricio Torres, József Zsolt Bernád, (参考訳) 本稿では,繰り返し絡み合った浄化プロトコルを最適化する手法を提案し,検討する。 この手法は、準ニュートンアルゴリズムの助けを借りて、SU(4)行列全体の数値探索に基づいている。 また,混合絡み合った状態の確率的発生を考慮した平均的コンカレンスの評価を行った。 制御NOTゲートにより最適プロトコルが必ずしも達成されない状態の族を示す。 いくつかの最適解が見つかると、提案手法は、絡み合わせ浄化プロトコルの実験的な実装における柔軟性と、量子情報処理における興味深い視点を提供する。

We propose and investigate a method to optimize recurrence entanglement purification protocols. The approach is based on a numerical search in the whole set of SU(4) matrices with the aid of a quasi-Newton algorithm. Our method evaluates average concurrences where the probabilistic occurrence of mixed entangled states is also taken into account. We show for certain families of states that optimal protocols are not necessarily achieved by bilaterally applied controlled-NOT gates. As we discover several optimal solutions, the proposed method offers some flexibility in experimental implementations of entanglement purification protocols and interesting perspectives in quantum information processing.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-16
# 予測関数の確率的リップシッツネスによる説明者ロバスト性の解析

Analyzing Explainer Robustness via Probabilistic Lipschitzness of Prediction Functions ( http://arxiv.org/abs/2206.12481v3 )

ライセンス: Link先を確認
Zulqarnain Khan, Davin Hill, Aria Masoomi, Joshua Bone, Jennifer Dy, (参考訳) 機械学習の手法は予測能力を大幅に改善したが、同時にそれらはより複雑で透明性が低いものになっている。 その結果、説明者はブラックボックス予測モデルへの解釈可能性を提供するためにしばしば頼られる。 重要な診断ツールとして、これらの説明ツール自体が堅牢であることが重要である。 本稿では、ロバスト性の一側面、すなわち説明者が類似したデータ入力について同様の説明をするべきであることに焦点をあてる。 予測関数の正確性に類似した説明器の正確性を導入して定義することにより、この概念を定式化する。 我々の形式主義は、予測者の確率的リプシッツ性(英語版)に説明者ロバスト性(英語版)を結び付けることができ、関数の局所的滑らか性(英語版)の確率を捉える。 予測関数のリプシッツ性を考慮した多種多様な説明器(SHAP, RISE, CXPlain)の精度の低い保証を提供する。 これらの理論的結果は、局所的滑らかな予測関数が局所的堅牢な説明に結びつくことを示唆している。 シミュレーションと実データを用いて,これらの結果を実証的に評価した。

Machine learning methods have significantly improved in their predictive capabilities, but at the same time they are becoming more complex and less transparent. As a result, explainers are often relied on to provide interpretability to these black-box prediction models. As crucial diagnostics tools, it is important that these explainers themselves are robust. In this paper we focus on one particular aspect of robustness, namely that an explainer should give similar explanations for similar data inputs. We formalize this notion by introducing and defining explainer astuteness, analogous to astuteness of prediction functions. Our formalism allows us to connect explainer robustness to the predictor's probabilistic Lipschitzness, which captures the probability of local smoothness of a function. We provide lower bound guarantees on the astuteness of a variety of explainers (e.g., SHAP, RISE, CXPlain) given the Lipschitzness of the prediction function. These theoretical results imply that locally smooth prediction functions lend themselves to locally robust explanations. We evaluate these results empirically on simulated as well as real datasets.
翻訳日:2024-04-18 03:19:56 公開日:2024-04-16
# ルールベースモデルから大規模言語モデルへのオープン情報抽出に関する調査

A Survey on Open Information Extraction from Rule-based Model to Large Language Model ( http://arxiv.org/abs/2208.08690v2 )

ライセンス: Link先を確認
Pai Liu, Wenyang Gao, Wenjie Dong, Lin Ai, Ziwei Gong, Songfang Huang, Zongsheng Li, Ehsan Hoque, Julia Hirschberg, Yue Zhang, (参考訳) オープン情報抽出は,テキストの関連型やドメインに制限を加えることなく,構造化されていないテキストから構造化された情報を抽出することを目的とした,重要なNLPタスクである。 本調査では,2007年から2022年までのオープンな情報抽出技術について紹介し,従来の調査対象外の新モデルに焦点を当てた。 近年のOIE技術の発展に対応するため,情報の観点からの新たな分類手法を提案する。 さらに、タスク設定に基づく3つの主要なアプローチと、現在の一般的なデータセットとモデル評価メトリクスを要約する。 総合的なレビューでは、データセット、情報ソース、出力フォーム、メソッド、評価メトリクスの各側面から、いくつかの今後の方向性が示されている。

Open information extraction is an important NLP task that targets extracting structured information from unstructured text without limitations on the relation type or the domain of the text. This survey paper covers open information extraction technologies from 2007 to 2022 with a focus on new models not covered by previous surveys. We propose a new categorization method from the source of information perspective to accommodate the development of recent OIE technologies. In addition, we summarize three major approaches based on task settings as well as current popular datasets and model evaluation metrics. Given the comprehensive review, several future directions are shown from datasets, source of information, output form, method, and evaluation metric aspects.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-16
# ランダム近似$t$-designに対するランダム行列モデル

A random matrix model for random approximate $t$-designs ( http://arxiv.org/abs/2210.07872v3 )

ライセンス: Link先を確認
Piotr Dulian, Adam Sawicki, (参考訳) ハール確率集合 $\mathcal{S}\subset U(d)$ に対して、一様測度 $\nu_\mathcal{S}$ を考える。 測度 $\nu_\mathcal{S}$ は $\delta(\nu_\mathcal{S},t)$-approximate $t$-design, $t\in\mathbb{Z}_+$ とみなすことができる。 任意の$t$に対して$\delta(\nu_\mathcal{S},t)$の確率分布を記述することを目的としたランダム行列モデルを提案する。 我々のモデルはブロックが独立なブロック対角行列によって与えられ、ガウスあるいはジニブレのアンサンブルによって与えられ、それらの数、サイズ、型は$t$で決定される。 この行列の作用素ノルムである$\delta({t})$は、$\sqrt{|\mathcal{S}|}\delta(\nu_\mathcal{S},t)$が分布に収束する確率変数である。 さらに、我々のモデルは、任意の$\epsilon>0$に対して、テール確率 $\mathbb{P}(\delta(t)>2+\epsilon)$ に明示的な境界を与える。 我々はまた、我々のモデルがいわゆるスペクトルギャップ予想を満たすこと、すなわち、確率$t\in\mathbb{Z}_+$ が存在して $\sup_{k\in\mathbb{Z}_{+}}\delta(k)=\delta(t)$ であることを示す。 数値シミュレーションは、提案されたモデルが実際に$\mathcal{S}$の任意の濃度に対してほぼ正確であることを示す証拠を与える。 この現象のヒューリスティックな説明は、我々は、テール確率 $\mathbb{P}(\sqrt{\mathcal{S}}\delta(\nu_\mathcal{S},t)>2+\epsilon)$ が、我々のランダム行列モデルのテール確率 $\mathbb{P}(\delta(t)>2+\epsilon)$ によって上から有界であると推測する。 特に我々の予想は、ハール確率集合 $\mathcal{S}\subset U(d)$ がスペクトルギャップ予想を確率 $1$ を満たすことを示唆している。

For a Haar random set $\mathcal{S}\subset U(d)$ of quantum gates we consider the uniform measure $\nu_\mathcal{S}$ whose support is given by $\mathcal{S}$. The measure $\nu_\mathcal{S}$ can be regarded as a $\delta(\nu_\mathcal{S},t)$-approximate $t$-design, $t\in\mathbb{Z}_+$. We propose a random matrix model that aims to describe the probability distribution of $\delta(\nu_\mathcal{S},t)$ for any $t$. Our model is given by a block diagonal matrix whose blocks are independent, given by Gaussian or Ginibre ensembles, and their number, size and type is determined by $t$. We prove that, the operator norm of this matrix, $\delta({t})$, is the random variable to which $\sqrt{|\mathcal{S}|}\delta(\nu_\mathcal{S},t)$ converges in distribution when the number of elements in $\mathcal{S}$ grows to infinity. Moreover, we characterize our model giving explicit bounds on the tail probabilities $\mathbb{P}(\delta(t)>2+\epsilon)$, for any $\epsilon>0$. We also show that our model satisfies the so-called spectral gap conjecture, i.e. we prove that with the probability $1$ there is $t\in\mathbb{Z}_+$ such that $\sup_{k\in\mathbb{Z}_{+}}\delta(k)=\delta(t)$. Numerical simulations give convincing evidence that the proposed model is actually almost exact for any cardinality of $\mathcal{S}$. The heuristic explanation of this phenomenon, that we provide, leads us to conjecture that the tail probabilities $\mathbb{P}(\sqrt{\mathcal{S}}\delta(\nu_\mathcal{S},t)>2+\epsilon)$ are bounded from above by the tail probabilities $\mathbb{P}(\delta(t)>2+\epsilon)$ of our random matrix model. In particular our conjecture implies that a Haar random set $\mathcal{S}\subset U(d)$ satisfies the spectral gap conjecture with the probability $1$.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-16
# 精度行列上の多様体ガウス変分ベイズ

Manifold Gaussian Variational Bayes on the Precision Matrix ( http://arxiv.org/abs/2210.14598v4 )

ライセンス: Link先を確認
Martin Magris, Mostafa Shabani, Alexandros Iosifidis, (参考訳) 複雑なモデルにおける変分推論(VI)の最適化アルゴリズムを提案する。 我々のアプローチは、変分空間がリーマン多様体であるような自然な勾配の更新に依存する。 本研究では,変分行列上の正定値制約を満たすガウス変分推論の効率的なアルゴリズムを開発した。 精密行列 (MGVBP) 上の多様体ガウス変分ベイズは, 簡単な更新規則を提供し, 実装が容易であり, 高精度行列パラメトリゼーションは計算上の優位性が高い。 MGVBPはブラックボックスの性質のため、複雑なモデルにおけるVIのための準備が整ったソリューションである。 5つ以上のデータセットで、異なる統計モデルおよび計量モデルに対する実現可能なアプローチを実証的に検証し、ベースライン法についてその性能を議論する。

We propose an optimization algorithm for Variational Inference (VI) in complex models. Our approach relies on natural gradient updates where the variational space is a Riemann manifold. We develop an efficient algorithm for Gaussian Variational Inference whose updates satisfy the positive definite constraint on the variational covariance matrix. Our Manifold Gaussian Variational Bayes on the Precision matrix (MGVBP) solution provides simple update rules, is straightforward to implement, and the use of the precision matrix parametrization has a significant computational advantage. Due to its black-box nature, MGVBP stands as a ready-to-use solution for VI in complex models. Over five datasets, we empirically validate our feasible approach on different statistical and econometric models, discussing its performance with respect to baseline methods.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-16
# Pixel-Wiseコントラスト蒸留

Pixel-Wise Contrastive Distillation ( http://arxiv.org/abs/2211.00218v3 )

ライセンス: Link先を確認
Junqiang Huang, Zichao Guo, (参考訳) 本稿では,高密度予測タスクに親しみやすい簡易だが効果的な画素レベルの自己監督蒸留フレームワークを提案する。 提案手法は, 学生と教師の出力特徴マップから対応する画素を抽出し, 知識を抽出する。 PCDにはSpatialAdaptorと呼ばれる新しいデザインが含まれており、これは教師ネットワークの一部であり、出力機能の分布を保存している。 アブレーション実験により, この変形挙動により, より情報的な画素間蒸留が可能であることが示唆された。 さらに,学生の特徴マップの画素を明示的に関連づけたプラグイン型マルチヘッド自己認識モジュールを用いて,効果的な受容場を向上し,より競争力のある学生を輩出する。 PCD \textbf{outperforms} 以前の高密度予測タスクにおける自己教師型蒸留法。 PCDで蒸留した \mbox{ResNet-18-FPN} のバックボーンは、$37.4$ AP$^\text{bbox}$と$34.0$ AP$^\text{mask}$をCOCOデータセット上で達成している。 我々の研究は、自己管理的な方法で、密集予測タスクに親しみやすい小さなモデルを事前訓練する方法について、将来の研究に刺激を与えることを期待している。

We present a simple but effective pixel-level self-supervised distillation framework friendly to dense prediction tasks. Our method, called Pixel-Wise Contrastive Distillation (PCD), distills knowledge by attracting the corresponding pixels from student's and teacher's output feature maps. PCD includes a novel design called SpatialAdaptor which ``reshapes'' a part of the teacher network while preserving the distribution of its output features. Our ablation experiments suggest that this reshaping behavior enables more informative pixel-to-pixel distillation. Moreover, we utilize a plug-in multi-head self-attention module that explicitly relates the pixels of student's feature maps to enhance the effective receptive field, leading to a more competitive student. PCD \textbf{outperforms} previous self-supervised distillation methods on various dense prediction tasks. A backbone of \mbox{ResNet-18-FPN} distilled by PCD achieves $37.4$ AP$^\text{bbox}$ and $34.0$ AP$^\text{mask}$ on COCO dataset using the detector of \mbox{Mask R-CNN}. We hope our study will inspire future research on how to pre-train a small model friendly to dense prediction tasks in a self-supervised fashion.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-16
# 修正量子力学における有効情報境界

Effective information bounds in modified quantum mechanics ( http://arxiv.org/abs/2211.09227v2 )

ライセンス: Link先を確認
Sarah Aghababaei, Hooman Moradpour, Salman Sajad Wani, Francesco Marino, Naveed Ahmad Shah, Mir Faizal, (参考訳) 崩壊モデルの一般的な特徴とプランクスケールよりかなり低いエネルギーでの重力の量子化のサインは、通常の量子力学の振る舞いからの逸脱である。 本稿では、量子情報理論の観点から、このような修正の一般的な結果を分析し、異なる量子系への応用を期待する。 量子システムは、パラメータ推定のためにハイゼンベルク極限の修正を暗示する量子速度制限の修正を行うことを示す。 我々の結果は、通常の量子力学を超える幅広いシナリオに当てはまる。 量子重力にインスパイアされたいくつかの非局所モデルでは、境界は時間の経過とともに振動することが示され、これは将来の高精度な量子実験で試される。

A common feature of collapse models and an expected signature of the quantization of gravity at energies well below the Planck scale is the deviation from ordinary quantum-mechanical behavior. Here, we analyze the general consequences of such modifications from the point of view of quantum information theory and we anticipate applications to different quantum systems. We show that quantum systems undergo corrections to the quantum speed limit which, in turn, imply the modification of the Heisenberg limit for parameter estimation. Our results hold for a wide class of scenarios beyond ordinary quantum mechanics. For some nonlocal models inspired by quantum gravity, the bounds are found to oscillate in time, an effect that could be tested in future high-precision quantum experiments.
翻訳日:2024-04-18 03:10:06 公開日:2024-04-16
# エンド・ツー・エンド・リレーショナル・カメラ・ポッド・レグレッションに向けた画像マッチングの活用

Leveraging Image Matching Toward End-to-End Relative Camera Pose Regression ( http://arxiv.org/abs/2211.14950v2 )

ライセンス: Link先を確認
Fadi Khatib, Yuval Margalit, Meirav Galun, Ronen Basri, (参考訳) 本稿では,2つの画像間の相対的なポーズ回帰のための一般化可能なエンドツーエンドの深層学習手法を提案する。 異なる視点から撮影した同じシーンの2つの画像から、それぞれのカメラ間の相対的な回転と変換(方向とスケールを含む)を予測する。 従来のパイプラインにインスパイアされた本手法では,画像マッチング(IM)を,相対的ポーズ回帰のための事前学習タスクとして活用する。 具体的には,Scannet 上で事前学習したアテンションベースネットワークを利用したアーキテクチャである LoFTR を用いて,半Dense 特徴マップを抽出し,それをワープしてポーズ回帰ネットワークに入力する。 特に,翻訳方向とスケールを別用語で表すロス関数を用いる。 このような分離が重要であると我々は信じている。なぜなら、変換方向は点対応によって決定され、スケールは以前の形状から推定されるからである。 われわれはこの選択をさらに支持している。 提案手法をいくつかのデータセット上で評価し,従来のエンドツーエンド手法よりも優れていることを示す。 この手法はまた、目に見えないデータセットによく一般化する。

This paper proposes a generalizable, end-to-end deep learning-based method for relative pose regression between two images. Given two images of the same scene captured from different viewpoints, our method predicts the relative rotation and translation (including direction and scale) between the two respective cameras. Inspired by the classical pipeline, our method leverages Image Matching (IM) as a pre-trained task for relative pose regression. Specifically, we use LoFTR, an architecture that utilizes an attention-based network pre-trained on Scannet, to extract semi-dense feature maps, which are then warped and fed into a pose regression network. Notably, we use a loss function that utilizes separate terms to account for the translation direction and scale. We believe such a separation is important because translation direction is determined by point correspondences while the scale is inferred from prior on shape sizes. Our ablations further support this choice. We evaluate our method on several datasets and show that it outperforms previous end-to-end methods. The method also generalizes well to unseen datasets.
翻訳日:2024-04-18 03:00:15 公開日:2024-04-16
# 結晶のディラック・フォックモデルに対する最小化器の存在

Existence of minimizers for the Dirac-Fock model of crystals ( http://arxiv.org/abs/2212.01142v3 )

ライセンス: Link先を確認
Isabelle Catto, Long Meng, Eric Paturel, Eric Séré, (参考訳) 非相対論的結晶の基底状態に関する数学的および物理学的な文献には、多くの異なるモデルが存在するが、相対論的ケースはあまり研究されておらず、結晶の完全な相対論的処理に関する数学的結果も分かっていない。 本稿では,結晶の平均場相対論的エネルギーを周期密度行列で紹介する。 このモデルは、原子と分子のディラック・フォック基底状態の最近の定義と、結晶の非相対論的ハートリー・フォックモデルの両方から着想を得ている。 細胞1個あたりの電子数があまり多くない場合、基底状態の存在を証明します。

Whereas many different models exist in the mathematical and physics literature for ground states of non-relativistic crystals, the relativistic case has been much less studied and we are not aware of any mathematical result on a fully relativistic treatment of crystals. In this paper, we introduce a mean-field relativistic energy for crystals in terms of periodic density matrices. This model is inspired both from a recent definition of the Dirac-Fock ground state for atoms and molecules, due to one of us, and from the non-relativistic Hartree-Fock model for crystals. We prove the existence of a ground state when the number of electrons per cell is not too large.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-16
# 赤外光波センシングによる非接触呼吸異常検出

Noncontact Respiratory Anomaly Detection Using Infrared Light-Wave Sensing ( http://arxiv.org/abs/2301.03713v4 )

ライセンス: Link先を確認
Md Zobaer Islam, Brenden Martin, Carly Gotcher, Tyler Martinez, John F. O'Hara, Sabit Ekin, (参考訳) ヒトの呼吸速度とそのパターンは、被験者の身体的および心理的状態に関する重要な情報を伝達する。 異常な呼吸は、さらなる診断と治療につながる致命的な健康上の問題を示す可能性がある。 非コヒーレント赤外光を用いた無線光波センシング(LWS)は、プライバシーの懸念を生じさせることなく、安全で、離散的で、効率的で、非侵襲的な人間の呼吸監視を約束する。 呼吸異常を識別するためには呼吸パターンの異なる種類の呼吸パターンをトレーニングする必要があるが, 呼吸波形として収集したデータを検証し, 外部中断, ユーザ移動, システム誤動作による異常データを捨てる必要がある。 これらのニーズに対処するために,人間の呼吸パターンを模倣するロボットを用いて,正常および異なる種類の呼吸異常をシミュレートした。 そして、赤外線センシング技術を用いて時系列呼吸データを収集した。 3つの機械学習アルゴリズム、決定木、ランダムフォレスト、XGBoostを適用し、呼吸異常と異常データを検出する。 モデル性能はクロスバリデーションにより評価され,分類精度,精度,リコールスコアが評価された。 ランダム森林モデルは、0.5mの距離で収集されたデータで96.75%の分類精度を達成した。 一般に、ランダムフォレストやXGBoostのようなアンサンブルモデルは、光波検知装置から複数の距離で収集されたデータを分類する際に、1つのモデルよりも優れている。

Human respiratory rate and its pattern convey essential information about the physical and psychological states of the subject. Abnormal breathing can indicate fatal health issues leading to further diagnosis and treatment. Wireless light-wave sensing (LWS) using incoherent infrared light shows promise in safe, discreet, efficient, and non-invasive human breathing monitoring without raising privacy concerns. The respiration monitoring system needs to be trained on different types of breathing patterns to identify breathing anomalies.The system must also validate the collected data as a breathing waveform, discarding any faulty data caused by external interruption, user movement, or system malfunction. To address these needs, this study simulated normal and different types of abnormal respiration using a robot that mimics human breathing patterns. Then, time-series respiration data were collected using infrared light-wave sensing technology. Three machine learning algorithms, decision tree, random forest and XGBoost, were applied to detect breathing anomalies and faulty data. Model performances were evaluated through cross-validation, assessing classification accuracy, precision and recall scores. The random forest model achieved the highest classification accuracy of 96.75% with data collected at a 0.5m distance. In general, ensemble models like random forest and XGBoost performed better than a single model in classifying the data collected at multiple distances from the light-wave sensing setup.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-16
# Minerva:ファイルベースのランサムウェア検出器

Minerva: A File-Based Ransomware Detector ( http://arxiv.org/abs/2301.11050v2 )

ライセンス: Link先を確認
Dorjan Hitaj, Giulio Pagnotta, Fabio De Gaspari, Lorenzo De Carli, Luigi V. Mancini, (参考訳) ランサムウェア攻撃は近年数十億ドルの損害をもたらしており、将来的には数十億ドルの被害が増加すると予想されている。 その結果、ランサムウェアの検出と緩和に多大な努力が注がれた。 近年,行動に基づくランサムウェア検出手法が注目されている。 これらの行動検知器は通常、悪意のある行動を特定するためにプロセスベースの行動プロファイルに依存している。 しかし、回避攻撃に対するこのようなアプローチの脆弱性を強調した文献が増えているため、ランサムウェア問題に対する包括的解決策はいまだ解明されていない。 本稿ではランサムウェア検出のための新しい堅牢なアプローチであるMinervaについて述べる。 Minervaは、回避攻撃に対する設計によって堅牢に設計されており、アーキテクチャと特徴の選択は、敵の操作に対するレジリエンスによって通知される。 我々は,ミネルバのランサムウェアの種類や,ミネルバの回避に特化して設計されたバリエーションを含む,さまざまなランサムウェアの種類を網羅的に分析する。 我々の評価は、ミネルバがランサムウェアを正確に識別し、目に見えない脅威に一般化し、回避攻撃に耐える能力を示している。 さらに、Minervaは極めて低い検出時間を実現し、ほぼゼロのオーバーヘッドでデータ損失防止技術を採用することができる。

Ransomware attacks have caused billions of dollars in damages in recent years, and are expected to cause billions more in the future. Consequently, significant effort has been devoted to ransomware detection and mitigation. Behavioral-based ransomware detection approaches have garnered considerable attention recently. These behavioral detectors typically rely on process-based behavioral profiles to identify malicious behaviors. However, with an increasing body of literature highlighting the vulnerability of such approaches to evasion attacks, a comprehensive solution to the ransomware problem remains elusive. This paper presents Minerva, a novel robust approach to ransomware detection. Minerva is engineered to be robust by design against evasion attacks, with architectural and feature selection choices informed by their resilience to adversarial manipulation. We conduct a comprehensive analysis of Minerva across a diverse spectrum of ransomware types, encompassing unseen ransomware as well as variants designed specifically to evade Minerva. Our evaluation showcases the ability of Minerva to accurately identify ransomware, generalize to unseen threats, and withstand evasion attacks. Furthermore, Minerva achieves remarkably low detection times, enabling the adoption of data loss prevention techniques with near-zero overhead.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-16
# 音・有限状態機械のパニン系を用いた言語解析

Linguistic Analysis using Paninian System of Sounds and Finite State Machines ( http://arxiv.org/abs/2301.12463v2 )

ライセンス: Link先を確認
Shreekanth M Prabhu, Abhisek Midye, (参考訳) 音声言語の研究は、音韻学、形態学、文法を含む。 言語の分析は、その構文、意味論、実践論に基づいて行うことができる。 言語は根語、屈折言語、幹語に分類される。 これらの要因はすべて、共通性と類似性を持つ語彙の形成と、言語間での区別と微妙な違いにつながります。 本稿では,パニアン系を用いた音声マップの構築を行い,その状態遷移として単語を表現した。 言語を横断する関連する単語群は、それぞれm言語(形態言語)で表される。 形態的有限オートマタ(MFA)は、与えられたm言語に属する単語を受け入れる。 この演習により、言語非依存と言語認識の両方の方法で、音声言語における単語間の相互関係をよりよく理解することができる。 そこで本研究では,サンスクリットを中心とする言語発達のための生態系モデルを提案する。

The study of spoken languages comprises phonology, morphology, and grammar. Analysis of a language can be based on its syntax, semantics, and pragmatics. The languages can be classified as root languages, inflectional languages, and stem languages. All these factors lead to the formation of vocabulary which has commonality/similarity as well as distinct and subtle differences across languages. In this paper, we make use of Paninian system of sounds to construct a phonetic map and then words are represented as state transitions on the phonetic map. Each group of related words that cut across languages is represented by a m-language (morphological language). Morphological Finite Automata (MFA) are defined that accept the words belonging to a given m-language. This exercise can enable us to better understand the inter-relationships between words in spoken languages in both language-agnostic and language-cognizant manner. Based on our study and analysis, we propose an Ecosystem Model for Linguistic Development with Sanskrit at the core, in place of the widely accepted family tree model.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-16
# 点雲からの自動表面再構成のサーベイとベンチマーク

A Survey and Benchmark of Automatic Surface Reconstruction from Point Clouds ( http://arxiv.org/abs/2301.13656v3 )

ライセンス: Link先を確認
Raphael Sulzer, Renaud Marlet, Bruno Vallet, Loic Landrieu, (参考訳) 本稿では,点群からの表面再構成を行う従来の手法と学習法の両方について,総合的な調査とベンチマークを行う。 このタスクは、ノイズ、外れ値、非一様サンプリング、欠落データなどの要因により、現実世界の買収において特に困難である。 従来のアプローチでは、手作りの事前を入力点雲または結果表面に配置することで問題を単純化することが多く、これは退屈なハイパーパラメータチューニングを必要とする。 逆に、ディープラーニングモデルには、入力点雲と所望の表面の性質を直接データから学習する能力がある。 本研究では,これらの手工芸と学習先行が表面再構成技術の精度とロバスト性に与える影響について検討した。 各種の時間テストおよび現代手法を標準化された方法で評価する。 同一の特徴を持つ点雲上でトレーニングと評価を行う場合、学習ベースのモデルは、新しい形状のカテゴリを含むシナリオにおいて、従来のモデルである$\unicode{x2013}$evenと比較して、常に優れた曲面を生成する。 しかし、従来の手法は、現実世界の3D取得でよく見られる多様な点雲異常に対して、より大きなレジリエンスを示す。 研究コミュニティの利益のために、コードとデータセットを利用可能にし、学習ベースの表面再構成をさらに強化します。 これはhttps://github.com/raphaelsulzer/dsr-benchmarkでアクセスすることができる。

We present a comprehensive survey and benchmark of both traditional and learning-based methods for surface reconstruction from point clouds. This task is particularly challenging for real-world acquisitions due to factors like noise, outliers, non-uniform sampling, and missing data. Traditional approaches often simplify the problem by imposing handcrafted priors on either the input point clouds or the resulting surface, a process that can necessitate tedious hyperparameter tuning. Conversely, deep learning models have the capability to directly learn the properties of input point clouds and desired surfaces from data. We study the influence of these handcrafted and learned priors on the precision and robustness of surface reconstruction techniques. We evaluate various time-tested and contemporary methods in a standardized manner. When both trained and evaluated on point clouds with identical characteristics, the learning-based models consistently produce superior surfaces compared to their traditional counterparts$\unicode{x2013}$even in scenarios involving novel shape categories. However, traditional methods demonstrate greater resilience to the diverse array of point cloud anomalies commonly found in real-world 3D acquisitions. For the benefit of the research community, we make our code and datasets available, inviting further enhancements to learning-based surface reconstruction. This can be accessed at https://github.com/raphaelsulzer/dsr-benchmark .
翻訳日:2024-04-18 03:00:14 公開日:2024-04-16
# マルチエージェント強化学習における効率的な探索のためのエンサンブル値関数

Ensemble Value Functions for Efficient Exploration in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2302.03439v6 )

ライセンス: Link先を確認
Lukas Schäfer, Oliver Slumbers, Stephen McAleer, Yali Du, Stefano V. Albrecht, David Mguni, (参考訳) 協調型マルチエージェント強化学習(MARL)のための既存の価値に基づくアルゴリズムは、通常、環境を探索するために$\epsilon$-greedyのようなランダムな探索に依存している。 しかし、このような探索は、複数のエージェントの協力を必要とする状態において効果的な共同行動を見つけるのに非効率である。 本研究では,値関数のアンサンブルを用いた値ベースMARLアルゴリズムをシームレスに拡張する汎用フレームワークであるマルチエージェント探索(EMAX)のためのアンサンブル値関数を提案する。 EMAXは価値関数のアンサンブルを活用し、エージェントの探索をガイドし、最適化を安定化し、それらのポリシーを誤った調整に対してより堅牢にする。 これらの利点は、3つのテクニックを組み合わせることで達成される。 1EMAXは、UCB政策におけるアンサンブル全体の価値見積の不確実性を利用して探索を誘導する。 この探索政策は、エージェント間の協力を必要とする環境の一部に焦点を当て、エージェントがより効率的に協力する方法を学ぶことを可能にする。 2)最適化中、EMAXは目標値をアンサンブルの平均値推定値として計算する。 これらのターゲットは、一般的に適用されるターゲットネットワークに比べてばらつきが低く、他のエージェントの探索や非定常的なポリシーによって引き起こされる高い分散に苦しむMARLにおいて大きな利益をもたらす。 (3)評価中、EMAXはアンサンブル全体で多数決後の行動を選択するため、準最適行動を選択する可能性が低下する。 我々は,EMAX,独立DQN,VDN,QMIXの3つの値ベースMARLアルゴリズムをインスタンス化し,それらを4つの環境にわたる21のタスクで評価する。 5つの値関数のアンサンブルを使用して、EMAXは、21タスクの平均で、これらのアルゴリズムのサンプル効率と最終的な評価リターンを、それぞれ60%、47%、539%改善する。

Existing value-based algorithms for cooperative multi-agent reinforcement learning (MARL) commonly rely on random exploration, such as $\epsilon$-greedy, to explore the environment. However, such exploration is inefficient at finding effective joint actions in states that require cooperation of multiple agents. In this work, we propose ensemble value functions for multi-agent exploration (EMAX), a general framework to seamlessly extend value-based MARL algorithms with ensembles of value functions. EMAX leverages the ensemble of value functions to guide the exploration of agents, stabilises their optimisation, and makes their policies more robust to miscoordination. These benefits are achieved by using a combination of three techniques. (1) EMAX uses the uncertainty of value estimates across the ensemble in a UCB policy to guide the exploration. This exploration policy focuses on parts of the environment which require cooperation across agents and, thus, enables agents to more efficiently learn how to cooperate. (2) During the optimisation, EMAX computes target values as average value estimates across the ensemble. These targets exhibit lower variance compared to commonly applied target networks, leading to significant benefits in MARL which commonly suffers from high variance caused by the exploration and non-stationary policies of other agents. (3) During evaluation, EMAX selects actions following a majority vote across the ensemble, which reduces the likelihood of selecting sub-optimal actions. We instantiate three value-based MARL algorithms with EMAX, independent DQN, VDN and QMIX, and evaluate them in 21 tasks across four environments. Using ensembles of five value functions, EMAX improves sample efficiency and final evaluation returns of these algorithms by 60%, 47%, and 539%, respectively, averaged across 21 tasks.
翻訳日:2024-04-18 03:00:14 公開日:2024-04-16
# クリティカルノードゲーム

The Critical Node Game ( http://arxiv.org/abs/2303.05961v2 )

ライセンス: Link先を確認
Gabriele Dragotto, Amine Boukhtouta, Andrea Lodi, Mehdi Taobane, (参考訳) 本研究では,クラウドネットワークのサイバーセキュリティリスクを評価し,セキュリティ専門家に最適なセキュリティ戦略を通知するゲーム理論モデルを提案する。 我々のアプローチはゲーム理論、組合せ最適化、サイバーセキュリティを組み合わせており、不確実なサイバー攻撃による予期せぬネットワーク破壊を最小化することを目的としている。 提案手法では,各プレイヤーが他プレイヤーの変数をパラメータ化した組合せ最適化問題を解く,同時かつ非協調的な攻撃・防御ゲームであるクリティカルノードゲームを導入する。 各プレイヤーは、敵の選択について限られた知識で防御的(または攻撃的)戦略を同時にコミットする。 臨界ノードゲームに対して現実的なモデルを提供し、その安定解、すなわちNash平衡を計算するアルゴリズムを提案する。 本手法により,セキュリティ専門家は,クラウドネットワークのセキュリティ姿勢を評価し,ネットワーク上に展開されるサイバー保護レベルを動的に適応させることができる。 実世界のクラウドネットワークを詳細に分析し、広範囲な計算テストを通じてアプローチの有効性を実証する。

In this work, we introduce a game-theoretic model that assesses the cyber-security risk of cloud networks and informs security experts on the optimal security strategies. Our approach combines game theory, combinatorial optimization, and cyber-security and aims to minimize the unexpected network disruptions caused by malicious cyber-attacks under uncertainty. Methodologically, we introduce the critical node game, a simultaneous and non-cooperative attacker-defender game where each player solves a combinatorial optimization problem parametrized in the variables of the other player. Each player simultaneously commits to a defensive (or attacking) strategy with limited knowledge about the choices of their adversary. We provide a realistic model for the critical node game and propose an algorithm to compute its stable solutions, i.e., its Nash equilibria. Practically, our approach enables security experts to assess the security posture of the cloud network and dynamically adapt the level of cyber-protection deployed on the network. We provide a detailed analysis of a real-world cloud network and demonstrate the efficacy of our approach through extensive computational tests.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-16
# エンタングルメント支援量子リードミューラーテンソル製品コード

Entanglement-assisted Quantum Reed-Muller Tensor Product Codes ( http://arxiv.org/abs/2303.08294v2 )

ライセンス: Link先を確認
Priya J. Nadkarni, Praveen Jayakumar, Arpit Behera, Shayan Srinivasa Garani, (参考訳) 本稿では,古典的RM符号からの標準エンタングルメント支援(EA)量子ビットリード・ミュラー符号とテンソル積の変種について述べる。 また,CSS 構造を用いて得られた EA RM 符号は,符号速度がゼロで負の触媒速度を持つことを示した。 さらに、テンソル積コード(TPC)構造を用いて、これらの古典的RM符号から構築されたEA符号が、正の符号速度を有し、正の触媒速度を持つEA RM TPCのサブクラスを提供し、量子通信に有用な、この種類のコードに対して、超付加性の符号化アナログを確立することを示す。 また、この分析を一般化して、古典的符号からEA TPCの条件を求め、対応するEA CSS符号がゼロである場合に正の触媒反応率を持つようにした。

We present the construction of standard entanglement-assisted (EA) qubit Reed-Muller (RM) codes and their tensor product variants from classical RM codes. We show that the EA RM codes obtained using the CSS construction have zero coding rate and negative catalytic rate. We further show that EA codes constructed from these same classical RM codes using the tensor product code (TPC) construction have positive coding rate and provide a subclass of EA RM TPCs that have positive catalytic rate, thus establishing the coding analog of superadditivity for this family of codes, useful towards quantum communications. We also generalize this analysis to obtain conditions for EA TPCs from classical codes to have positive catalytic rate when their corresponding EA CSS codes have zero rate.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-16
# スピンの非可換回転の最小ノイズ推定

Minimal-noise estimation of noncommuting rotations of a spin ( http://arxiv.org/abs/2303.08591v3 )

ライセンス: Link先を確認
Jakub Czartowski, Karol Życzkowski, Daniel Braun, (参考訳) 2スピン圧縮状態を用いてスピンの回転を測定するために,$\text{SU}(1,1)$インターフェロメトリのアナログを提案する。 回転角推定のためのハイゼンベルク極限の到達可能性を示す。 特定の方向と強度について、古典的境界上のすべての赤道回転軸(したがって非可換回転)に対する感度の利点は、対応する回転角に対する1パラメータの量子フィッシャー情報の2次スケーリングの観点で示される。 この結果から,同じ最適化初期状態を持つ$x$-$y$平面の任意の方向の磁場を測定する方法が得られた。

We propose an analogue of $\text{SU}(1,1)$ interferometry to measure rotation of a spin by using two-spin squeezed states. Attainability of the Heisenberg limit for the estimation of the rotation angle is demonstrated for maximal squeezing. For a specific direction and strength an advantage in sensitivity for all equatorial rotation axes (and hence non-commuting rotations) over the classical bound is shown in terms of quadratic scaling of the single-parameter quantum Fisher information for the corresponding rotation angles. Our results provide a method for measuring magnetic fields in any direction in the $x$-$y$-plane with the same optimized initial state.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-16
# パリティアーキテクチャにおけるコード変形の一定深さ

Constant Depth Code Deformations in the Parity Architecture ( http://arxiv.org/abs/2303.08602v3 )

ライセンス: Link先を確認
Anette Messinger, Michael Fellner, Wolfgang Lechner, (参考訳) 本研究では,パリティアーキテクチャにおける任意の量子状態の符号化と復号化を行うプロトコルを提案する。 この手順は通常、同時キュービット測定の2次オーバーヘッドを必要とするが、コード変形によるパリティ符号化における論理的マルチキュービットゲートの単純かつ低深さの実装を可能にする。 量子ゲートやアルゴリズムのより効率的な実装を実現するために、このような符号化と復号方式を用いて、基礎となるコードのサイズと形状を柔軟に変化させる方法について論じる。 提案手法をQAOAに適用し, 局所ゲートを用いたパリティ符号化を使わずに, 標準の非局所的なQAOAアプローチと同じ最適化性能で, 一定の深度実装を実現する。 さらに,本手法は,量子フーリエ変換の実装の深さを2倍に抑えることができることを示す。

We present a protocol to encode and decode arbitrary quantum states in the parity architecture with constant circuit depth using measurements, local nearest-neighbor and single-qubit operations only. While this procedure typically requires a quadratic overhead of simultaneous qubit measurements, it allows for a simple and low-depth implementation of logical multi-qubit gates in the parity encoding via code deformation. We discuss how such encoding and decoding schemes can be used to flexibly change the size and shape of the underlying code to enable a more efficient implementation of quantum gates or algorithms. We apply the new findings to the QAOA which leads to a constant depth implementation using local gates at the same optimization performance as the standard, potentially non-local, QAOA approach without the parity encoding. Furthermore, we show that our method can reduce the depth of implementing the quantum Fourier transform by a factor of two when allowing measurements.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-16
# 部分入力による可制御性韻律生成

Controllable Prosody Generation With Partial Inputs ( http://arxiv.org/abs/2303.09446v2 )

ライセンス: Link先を確認
Dan Andrei Iliescu, Devang Savita Ram Mohan, Tian Huey Teh, Zack Hodari, (参考訳) 本稿では,音声合成の文脈で韻律を生成するためのヒューマン・イン・ザ・ループ制御の問題に対処する。 既存の生成モデルでは、ユーザが素早く正確に出力を変更できる効率的なインターフェースが欠如しているため、韻律の制御は困難である。 これを解決するために,ユーザが部分的な入力を提供し,生成モデルが欠落した特徴を生成する新しいフレームワークを提案する。 本稿では,部分韻律的特徴を符号化し,完全音声を出力するモデルを提案する。 我々は,本モデルがループ制御機構の2つの重要な特性,すなわち効率性と堅牢性を示すことを実証的に示す。 非常に少数の入力値(〜4)であっても、我々のモデルはリスナーの好み(4:1)で出力の品質を大幅に向上させることができる。

We address the problem of human-in-the-loop control for generating prosody in the context of text-to-speech synthesis. Controlling prosody is challenging because existing generative models lack an efficient interface through which users can modify the output quickly and precisely. To solve this, we introduce a novel framework whereby the user provides partial inputs and the generative model generates the missing features. We propose a model that is specifically designed to encode partial prosodic features and output complete audio. We show empirically that our model displays two essential qualities of a human-in-the-loop control mechanism: efficiency and robustness. With even a very small number of input values (~4), our model enables users to improve the quality of the output significantly in terms of listener preference (4:1).
翻訳日:2024-04-18 02:50:11 公開日:2024-04-16
# 2S-UDF:多視点画像からのロバストな非水密モデル再構成のための新しい2段階UDF学習法

2S-UDF: A Novel Two-stage UDF Learning Method for Robust Non-watertight Model Reconstruction from Multi-view Images ( http://arxiv.org/abs/2303.15368v3 )

ライセンス: Link先を確認
Junkai Deng, Fei Hou, Xuhui Chen, Wencheng Wang, Ying He, (参考訳) 近年, ニューラル放射場の基礎として, 多視点画像から3次元非水密モデルを構築するために, 無符号距離場(UDF)を学習する様々な技術が出現している。 しかし、UDFベースのボリュームレンダリングにおける中心的な課題は、符号なし距離の値を体積密度に変換する適切な方法を定式化し、結果として生じる重み関数が偏りがなく、オクルージョンに敏感であることを保証することである。 これらの要件を満たさないと、しばしば不正確なトポロジーや、結果として生じるモデルの大規模な再構成エラーが発生する。 本稿では,多視点画像から高品質なUDFを学習するための新しい2段階アルゴリズムである2S-UDFを提案することで,この問題に対処する。 当初は、わずかに偏りがあり透明であるが、粗い復元を補助する、容易に訓練可能な密度関数を適用した。 その後のステージでは、形状や外観を洗練させ、ボリュームレンダリングで使用される重み関数を直接調整して高品質な再構成を実現する。 2段階の密度と重量の分離により、トレーニングは安定的で堅牢になり、既存のUDF学習手法と区別できる。 DeepFashion3D,DTU,BlendedMVSデータセットの評価は,提案手法の堅牢性と有効性を評価する。 その結果,多視点画像から3次元非水密モデルの再構成において,他のUDF学習手法よりも優れた性能を示した。 私たちのコードはhttps://bitbucket.org/jkdeng/2sudf/で利用可能です。

Recently, building on the foundation of neural radiance field, various techniques have emerged to learn unsigned distance fields (UDF) to reconstruct 3D non-watertight models from multi-view images. Yet, a central challenge in UDF-based volume rendering is formulating a proper way to convert unsigned distance values into volume density, ensuring that the resulting weight function remains unbiased and sensitive to occlusions. Falling short on these requirements often results in incorrect topology or large reconstruction errors in resulting models. This paper addresses this challenge by presenting a novel two-stage algorithm, 2S-UDF, for learning a high-quality UDF from multi-view images. Initially, the method applies an easily trainable density function that, while slightly biased and transparent, aids in coarse reconstruction. The subsequent stage then refines the geometry and appearance of the object to achieve a high-quality reconstruction by directly adjusting the weight function used in volume rendering to ensure that it is unbiased and occlusion-aware. Decoupling density and weight in two stages makes our training stable and robust, distinguishing our technique from existing UDF learning approaches. Evaluations on the DeepFashion3D, DTU, and BlendedMVS datasets validate the robustness and effectiveness of our proposed approach. In both quantitative metrics and visual quality, the results indicate our superior performance over other UDF learning techniques in reconstructing 3D non-watertight models from multi-view images. Our code is available at https://bitbucket.org/jkdeng/2sudf/.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-16
# CuNeRF:Zero-Shot Medical Image Arbitrary-Scale Super Resolutionのための立方体型ニューラルネットワーク

CuNeRF: Cube-Based Neural Radiance Field for Zero-Shot Medical Image Arbitrary-Scale Super Resolution ( http://arxiv.org/abs/2303.16242v4 )

ライセンス: Link先を確認
Zixuan Chen, Jian-Huang Lai, Lingxiao Yang, Xiaohua Xie, (参考訳) 医用画像任意スケール超解像 (MIASSR) が最近注目され, 任意のスケールの医用ボリュームを単一モデルで超高精細化することを目指している。 しかし、既存のMIASSRメソッドには2つの大きな制限がある。 (i)高分解能(HR)ボリュームに依存して (ii) 様々なシナリオでの応用を制限する限定的な一般化能力。 これらの制限を克服するため、連続領域における任意のスケールと視点で医療画像を得ることができるゼロショットMIASSRフレームワークCuNeRF(Cue-based Neural Radiance Field)を提案する。 低分解能(LR)とHRボリュームのマッピングに適合する既存のMIASSR法とは異なり、CuNeRFはHR参照を必要とせずにLRボリュームから座標強度連続表現を構築することに焦点を当てている。 これは、立方体ベースのサンプリング、等方的ボリュームレンダリング、および立方体ベースの階層レンダリングを含む、提案された微分可能なモジュールによって実現される。 磁気リソースイメージング(MRI)とCTモダリティの広範な実験を通じて、CuNeRFは最先端MIASSR法より優れていることを示した。 CuNeRFは、より優れた視覚的Verisimilitudeをもたらし、様々なアップサンプリング要因におけるアーティファクトのエイリアスを減少させる。 さらに、我々のCuNeRFはLR-HRトレーニングペアを一切必要とせず、他のものよりも柔軟で使いやすくなります。 私たちのコードはhttps://github.com/NarcissusEx/CuNeRF.orgで公開されています。

Medical image arbitrary-scale super-resolution (MIASSR) has recently gained widespread attention, aiming to super sample medical volumes at arbitrary scales via a single model. However, existing MIASSR methods face two major limitations: (i) reliance on high-resolution (HR) volumes and (ii) limited generalization ability, which restricts their application in various scenarios. To overcome these limitations, we propose Cube-based Neural Radiance Field (CuNeRF), a zero-shot MIASSR framework that can yield medical images at arbitrary scales and viewpoints in a continuous domain. Unlike existing MIASSR methods that fit the mapping between low-resolution (LR) and HR volumes, CuNeRF focuses on building a coordinate-intensity continuous representation from LR volumes without the need for HR references. This is achieved by the proposed differentiable modules: including cube-based sampling, isotropic volume rendering, and cube-based hierarchical rendering. Through extensive experiments on magnetic resource imaging (MRI) and computed tomography (CT) modalities, we demonstrate that CuNeRF outperforms state-of-the-art MIASSR methods. CuNeRF yields better visual verisimilitude and reduces aliasing artifacts at various upsampling factors. Moreover, our CuNeRF does not need any LR-HR training pairs, which is more flexible and easier to be used than others. Our code is released at https://github.com/NarcissusEx/CuNeRF.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-16
# 潜在状態を持つ未知システムに対する性能保証を用いた学習ベース最適制御

Learning-Based Optimal Control with Performance Guarantees for Unknown Systems with Latent States ( http://arxiv.org/abs/2303.17963v3 )

ライセンス: Link先を確認
Robert Lefringhausen, Supitsana Srithasan, Armin Lederer, Sandra Hirche, (参考訳) 制御工学の手法がますます複雑なシステムに適用されるにつれて、システム識別のためのデータ駆動アプローチは、物理に基づくモデリングに代わる有望な選択肢として現れる。 ベイズ的アプローチは安全クリティカルな用途によく用いられるが、状態測定の可用性に依存しているが、複雑なシステムの状態は直接測定できないことが多い。 すると、力学と潜伏状態を共同で推定し、不確実性の定量化と正式な性能保証を持つコントローラの設計をかなり困難にすることができる。 本稿では, 粒子マルコフ連鎖モンテカルロ法とシナリオ理論を組み合わせた, 潜在状態を持つ未知の非線形系に対する最適入力軌道の計算法を提案する。 入力軌道に対して確率的性能保証が導出され、任意の制御法則の性能を検証するためのアプローチが提示される。 提案手法の有効性を数値シミュレーションで示す。

As control engineering methods are applied to increasingly complex systems, data-driven approaches for system identification appear as a promising alternative to physics-based modeling. While the Bayesian approaches prevalent for safety-critical applications usually rely on the availability of state measurements, the states of a complex system are often not directly measurable. It may then be necessary to jointly estimate the dynamics and the latent state, making the quantification of uncertainties and the design of controllers with formal performance guarantees considerably more challenging. This paper proposes a novel method for the computation of an optimal input trajectory for unknown nonlinear systems with latent states based on a combination of particle Markov chain Monte Carlo methods and scenario theory. Probabilistic performance guarantees are derived for the resulting input trajectory, and an approach to validate the performance of arbitrary control laws is presented. The effectiveness of the proposed method is demonstrated in a numerical simulation.
翻訳日:2024-04-18 02:50:11 公開日:2024-04-16
# チームスポーツにおける予測選手の役割について

About latent roles in forecasting players in team sports ( http://arxiv.org/abs/2304.08272v4 )

ライセンス: Link先を確認
Luca Scofano, Alessio Sampieri, Giuseppe Re, Matteo Almanza, Alessandro Panconesi, Fabio Galasso, (参考訳) スポーツにおける予測選手は、戦術的優位性の可能性と、そのような研究がマルチエージェントインタラクションシステムに適用可能であることから、人気が高まっている。 チームスポーツは、チームメイトと相手とのインタラクションに影響を与える重要な社会的要素を含んでいる。 しかし、それでも十分に活用する必要がある。 本研究は,各参加者がそれぞれの行動に特定の機能を持つことを仮定し,役割に基づくインタラクションが選手の今後の動きを予測する上で重要であることを仮定する。 RolForはロールベースのForecastingのための新しいエンドツーエンドモデルです。 RolForは、新しいモジュールであるOrdering Neural Networks(OrderNN)を使用して、プレイヤーの順番をパーミュレートし、各プレイヤーが潜在ロールに割り当てられるようにします。 潜在ロールはRoleGCNでモデル化される。 グラフ表現のおかげで、完全に学習可能な隣接行列が提供され、役割間の関係を捉え、その後プレイヤーの将来の軌跡を予測するのに使用される。 NBAバスケットボールのデータセットに対する大規模な実験は、役割の重要性を裏付け、最適化可能なモデルを使ってそれらをモデリングするという私たちのゴールを正当化します。 オラクルが役割を提供する場合、提案されたRolForは現在の最先端と好意的に比較する(ADEとFDEのエラーで第1位、第2位)。 しかし、エンドツーエンドのRolForのトレーニングは、置換法の微分可能性の問題を引き起こし、実験的にレビューした。 最後に、この研究は、微分可能なランク付けを難しいオープン問題として残し、グラフベースの相互作用モデルと組み合わせることで大きな可能性を秘めている。 Project は https://www.pinlab.org/aboutlatentroles で利用可能である。

Forecasting players in sports has grown in popularity due to the potential for a tactical advantage and the applicability of such research to multi-agent interaction systems. Team sports contain a significant social component that influences interactions between teammates and opponents. However, it still needs to be fully exploited. In this work, we hypothesize that each participant has a specific function in each action and that role-based interaction is critical for predicting players' future moves. We create RolFor, a novel end-to-end model for Role-based Forecasting. RolFor uses a new module we developed called Ordering Neural Networks (OrderNN) to permute the order of the players such that each player is assigned to a latent role. The latent role is then modeled with a RoleGCN. Thanks to its graph representation, it provides a fully learnable adjacency matrix that captures the relationships between roles and is subsequently used to forecast the players' future trajectories. Extensive experiments on a challenging NBA basketball dataset back up the importance of roles and justify our goal of modeling them using optimizable models. When an oracle provides roles, the proposed RolFor compares favorably to the current state-of-the-art (it ranks first in terms of ADE and second in terms of FDE errors). However, training the end-to-end RolFor incurs the issues of differentiability of permutation methods, which we experimentally review. Finally, this work restates differentiable ranking as a difficult open problem and its great potential in conjunction with graph-based interaction models. Project is available at: https://www.pinlab.org/aboutlatentroles
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# GenCorres: 結合入射型形状生成モデルによる連続形状マッチング

GenCorres: Consistent Shape Matching via Coupled Implicit-Explicit Shape Generative Models ( http://arxiv.org/abs/2304.10523v3 )

ライセンス: Link先を確認
Haitao Yang, Xiangru Huang, Bo Sun, Chandrajit Bajaj, Qixing Huang, (参考訳) 本稿では,新しいunsupervised joint shape matching (JSM)アプローチであるGenCorresを紹介する。 我々のキーとなるアイデアは、メッシュジェネレータを学習して非組織的な変形可能な形状の集合に適合させながら、隣接する合成形状間の変形を制限し、局所剛性や局所整合性などの幾何学構造を保存することである。 GenCorresは既存のJSM技術よりも3つの魅力的な利点を示している。 まず、GenCorresは入力形状よりもはるかに大きく、JSMのデータ駆動力を完全に活用する合成形状コレクションの中でJSMを実行する。 第2に、GenCorresは一貫した形状マッチングとペアワイズマッチング(すなわち、隣接した合成形状間の変形先行を強制することによって)を統一する。 第3に、ジェネレータは、一貫した形状対応の簡潔な符号化を提供する。 しかし、未組織形状の収集からメッシュジェネレータを学ぶことは困難であり、優れた初期化が必要である。 GenCorresは入力形状から暗黙のジェネレータを学習することでこの問題に対処する。 近接する暗黙曲面間の対応を計算するための新しい手法を導入し, 暗黙発生器の正規化に利用する。 暗黙のジェネレータの合成形状は、メッシュジェネレータを学習するための初期フィッティング(テンプレートベースの変形)を誘導する。 実験の結果,GenCorresは最先端のJSM技術よりもかなり優れていた。 GenCorresの合成形状は、最先端の変形可能な形状生成器に対して良好な性能を得ることができる。

This paper introduces GenCorres, a novel unsupervised joint shape matching (JSM) approach. Our key idea is to learn a mesh generator to fit an unorganized deformable shape collection while constraining deformations between adjacent synthetic shapes to preserve geometric structures such as local rigidity and local conformality. GenCorres presents three appealing advantages over existing JSM techniques. First, GenCorres performs JSM among a synthetic shape collection whose size is much bigger than the input shapes and fully leverages the datadriven power of JSM. Second, GenCorres unifies consistent shape matching and pairwise matching (i.e., by enforcing deformation priors between adjacent synthetic shapes). Third, the generator provides a concise encoding of consistent shape correspondences. However, learning a mesh generator from an unorganized shape collection is challenging, requiring a good initialization. GenCorres addresses this issue by learning an implicit generator from the input shapes, which provides intermediate shapes between two arbitrary shapes. We introduce a novel approach for computing correspondences between adjacent implicit surfaces, which we use to regularize the implicit generator. Synthetic shapes of the implicit generator then guide initial fittings (i.e., via template-based deformation) for learning the mesh generator. Experimental results show that GenCorres considerably outperforms state-of-the-art JSM techniques. The synthetic shapes of GenCorres also achieve salient performance gains against state-of-the-art deformable shape generators.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# 放射場を有する3次元のセグメンテーション

Segment Anything in 3D with Radiance Fields ( http://arxiv.org/abs/2304.12308v5 )

ライセンス: Link先を確認
Jiazhong Cen, Jiemin Fang, Zanwei Zhou, Chen Yang, Lingxi Xie, Xiaopeng Zhang, Wei Shen, Qi Tian, (参考訳) Segment Anything Model (SAM)は、高品質な2Dセグメンテーション結果を生成する強力なビジョン基盤モデルとして出現する。 本稿では,SAMを3次元オブジェクトに分割する手法を提案する。 3Dでコストがかかるデータ取得とアノテーションの手順を複製する代わりに、マルチビュー2D画像を3D空間に接続する安価なオフザシェルフとして、レージアンスフィールドを利用する効率的なソリューションを設計する。 提案手法をSA3D, 略してSegment Anything in 3Dと呼ぶ。 SA3Dでは、ユーザは単一のビューでターゲットオブジェクトに対して2Dセグメンテーションプロンプト(例えば粗点)を提供することのみを要求され、SAMで対応する2Dマスクを生成するために使用される。 次に、SA3Dは、ターゲットオブジェクトの3Dマスクを反復的に洗練するために、様々な視点でマスク逆レンダリングとクロスビューセルフプロンプトを交互に行う。 マスク逆レンダリングでは、SAMが取得した2次元マスクを3次元空間に投影し、3次元マスク精錬のために放射場で学習した密度分布の誘導を行い、その後、不正確な3次元マスクのレンダリングされた2次元マスクからのSAMへの入力として、クロスビュー自己プロンプト抽出が信頼性の高いプロンプトを自動的に生成する。 実験では,SA3Dが様々なシーンに適応し,数秒で3Dセグメンテーションを実現することを示す。 本研究は,2次元分割モデルの3次元化能力を高めるための潜在的手法を明らかにする。 私たちのコードはhttps://github.com/Jumpat/SegmentAnythingin3Dで公開されています。

The Segment Anything Model (SAM) emerges as a powerful vision foundation model to generate high-quality 2D segmentation results. This paper aims to generalize SAM to segment 3D objects. Rather than replicating the data acquisition and annotation procedure which is costly in 3D, we design an efficient solution, leveraging the radiance field as a cheap and off-the-shelf prior that connects multi-view 2D images to the 3D space. We refer to the proposed solution as SA3D, short for Segment Anything in 3D. With SA3D, the user is only required to provide a 2D segmentation prompt (e.g., rough points) for the target object in a single view, which is used to generate its corresponding 2D mask with SAM. Next, SA3D alternately performs mask inverse rendering and cross-view self-prompting across various views to iteratively refine the 3D mask of the target object. For one view, mask inverse rendering projects the 2D mask obtained by SAM into the 3D space with guidance of the density distribution learned by the radiance field for 3D mask refinement; Then, cross-view self-prompting extracts reliable prompts automatically as the input to SAM from the rendered 2D mask of the inaccurate 3D mask for a new view. We show in experiments that SA3D adapts to various scenes and achieves 3D segmentation within seconds. Our research reveals a potential methodology to lift the ability of a 2D segmentation model to 3D. Our code is available at https://github.com/Jumpat/SegmentAnythingin3D.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# 自己教師付きグラフ畳み込みネットワークを用いたメッシュ塗装のためのセルフプライア学習

Learning Self-Prior for Mesh Inpainting Using Self-Supervised Graph Convolutional Networks ( http://arxiv.org/abs/2305.00635v2 )

ライセンス: Link先を確認
Shota Hattori, Tatsuya Yatagawa, Yutaka Ohtake, Hiromasa Suzuki, (参考訳) 本稿では、トレーニングデータセットを必要とせずに、入力として不完全なメッシュのみを必要とする自己プライオリティベースのメッシュインペイントフレームワークを提案する。 さらに,本手法では,形状をボクセルグリッドや点雲,暗黙関数などの中間形式に変換することなく,塗装プロセスを通じて多角形メッシュフォーマットを維持している。 この目的を達成するために、単分解能GCN(SGCN)と多分解能GCN(MGCN)の2つのグラフ畳み込みネットワーク(GCN)を導入する。 提案手法では,初期穴充填から得られた水密メッシュを改良し,完全な出力メッシュを生成する。 具体的には、GCNをトレーニングして、入力メッシュの過度に平滑なバージョンを、期待される完全な形に変形させる。 変形は頂点変位によって記述され、GCNは実ホールの頂点における正確な変位を得るために監督される。 この目的のために、メッシュのいくつかの連結領域を偽の穴として指定し、それによって様々な偽の穴を持つメッシュを生成する。 これらの偽の穴では、頂点の正確な変位が知られており、頂点変位の精度を評価する損失関数を持つGCNを訓練することができる。 提案手法は従来のデータセットに依存しない手法よりも優れており,形状データセットにしばしば現れる他の深層学習手法と比較して頑健であることを示す。 コードとテストデータはhttps://github.com/astaka-pe/SeMIGCN.comで公開されています。

In this paper, we present a self-prior-based mesh inpainting framework that requires only an incomplete mesh as input, without the need for any training datasets. Additionally, our method maintains the polygonal mesh format throughout the inpainting process without converting the shape format to an intermediate one, such as a voxel grid, a point cloud, or an implicit function, which are typically considered easier for deep neural networks to process. To achieve this goal, we introduce two graph convolutional networks (GCNs): single-resolution GCN (SGCN) and multi-resolution GCN (MGCN), both trained in a self-supervised manner. Our approach refines a watertight mesh obtained from the initial hole filling to generate a complete output mesh. Specifically, we train the GCNs to deform an oversmoothed version of the input mesh into the expected complete shape. The deformation is described by vertex displacements, and the GCNs are supervised to obtain accurate displacements at vertices in real holes. To this end, we specify several connected regions of the mesh as fake holes, thereby generating meshes with various sets of fake holes. The correct displacements of vertices are known in these fake holes, thus enabling training GCNs with loss functions that assess the accuracy of vertex displacements. We demonstrate that our method outperforms traditional dataset-independent approaches and exhibits greater robustness compared with other deep-learning-based methods for shapes that infrequently appear in shape datasets. Our code and test data are available at https://github.com/astaka-pe/SeMIGCN.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# 部分位相インバージョンを用いた多自己ループラカダシカル量子ウォーク

Multi-self-loop Lackadaisical Quantum Walk with Partial Phase Inversion ( http://arxiv.org/abs/2305.01121v2 )

ライセンス: Link先を確認
Luciano S. de Souza, Jonathan H. A. de Carvalho, Henrique C. T. Santos, Tiago A. E. Ferreira, (参考訳) 遅延ランダムウォークの量子アナログである欠損量子ウォークは、各状態に重み付き自己ループ遷移を加えることで得られる。 自己ループ重み$l$が解を見つける際の最終的な成功確率に与える影響は、探索プロセスの重要なパラメータとなる。 セルフループの数は、検索タスクにとって重要なものでもある。 本稿では,複数の自己ループを持つ不連続な量子ウォークとして定義できる,複数自己ループ型ラカダシカル量子ウォークを部分的に反転させる量子探索アルゴリズムを提案する。 提案したアルゴリズムでは、各頂点は$m$の自己ループを持ち、重量は$l' = l/m$であり、$l$は真のパラメータである。 位相反転はグロバーのアルゴリズムに基づいており、部分的に作用し、与えられた量 $s < m$ の自己ループの位相を変更する。 また,本論文で用いられる2つの理想重み($l$)に基づく2つの新しい重み値も提案する。 ハイパーキューブ構造では、$s=1$ と $1 \leqslant m \leqslant 30$ の状況を分析した。 マーク付き頂点探索における部分位相反転の効果について検討した。 その結果、この提案は最大成功確率を$O(\sqrt{(n+m)\cdot N})$で1ドルに近い値に改善した。 本稿では,新しい量子探索アルゴリズムの構築における量子干渉の利用について,新しい視点で考察する。

The lackadaisical quantum walk, a quantum analog of the lazy random walk, is obtained by adding a weighted self-loop transition to each state. Impacts of the self-loop weight $l$ on the final success probability in finding a solution make it a key parameter for the search process. The number of self-loops can also be critical for search tasks. This article proposes the quantum search algorithm Multi-self-loop Lackadaisical Quantum Walk with Partial Phase Inversion, which can be defined as a lackadaisical quantum walk with multiple self-loops, where the target state phase is partially inverted. In the proposed algorithm, each vertex has $m$ self-loops, with weights $l' = l/m$, where $l$ is a real parameter. The phase inversion is based on Grover's algorithm and acts partially, modifying the phase of a given quantity $s < m$ of self-loops. We also propose two new weight values based on two ideal weights $l$ used in the literature. On a hypercube structure, we analyzed the situation where $s=1$ and $1 \leqslant m \leqslant 30$. We investigated the effects of partial phase inversion in the search for $1$ to $12$ marked vertices. As a result, this proposal improved the maximum success probabilities to values close to $1$ in $O (\sqrt{(n+m)\cdot N})$, where $n$ is the hypercube degree. This article contributes with a new perspective on the use of quantum interferences in constructing new quantum search algorithms.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# 個人分散トレーニングにおけるデータ選択と評価のためのグラデーションベースの指標

Incentivising the federation: gradient-based metrics for data selection and valuation in private decentralised training ( http://arxiv.org/abs/2305.02942v3 )

ライセンス: Link先を確認
Dmitrii Usynin, Daniel Rueckert, Georgios Kaissis, (参考訳) 機械学習モデルの協調トレーニングのための高品質なデータを取得することは、(A)規制上の懸念と(B)データ所有者が参加するインセンティブの欠如のため、難しい作業になる可能性がある。 最初の問題は、分散機械学習技術(例えば、フェデレーション付き学習)と、差分プライベート(DP)モデルトレーニングのようなプライバシ強化技術(PET)を組み合わせることで解決できる。 2つ目の課題は、トレーニングモデルに有利なデータへのアクセスを参加者に与えることによって解決できる。 しかし、DPノイズは、表現不足や非定型的な(しばしば情報的)データサンプルに悪影響を及ぼす可能性があるため、その有用性を評価することは困難である。 本研究では,個人の学習環境の参加者が共同学習モデルに最も有用なデータを選択するために,勾配情報を活用する方法について検討する。 本研究では,勾配の分散(VoG)とプライバシ・ロス・インプット・サセプティビリティスコア(PLIS)の2つの手法を評価する。 これらの技術は、より厳密なプライバシー設定であっても、フェデレートされたクライアントに、原則化されたデータ選択のためのツールを提供することができることを示す。

Obtaining high-quality data for collaborative training of machine learning models can be a challenging task due to A) regulatory concerns and B) a lack of data owner incentives to participate. The first issue can be addressed through the combination of distributed machine learning techniques (e.g. federated learning) and privacy enhancing technologies (PET), such as the differentially private (DP) model training. The second challenge can be addressed by rewarding the participants for giving access to data which is beneficial to the training model, which is of particular importance in federated settings, where the data is unevenly distributed. However, DP noise can adversely affect the underrepresented and the atypical (yet often informative) data samples, making it difficult to assess their usefulness. In this work, we investigate how to leverage gradient information to permit the participants of private training settings to select the data most beneficial for the jointly trained model. We assess two such methods, namely variance of gradients (VoG) and the privacy loss-input susceptibility score (PLIS). We show that these techniques can provide the federated clients with tools for principled data selection even in stricter privacy settings.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# 二次元魅力的なフェルミ・ハバードモデルにおける動的構造因子とペアリングギャップの測定法

Dynamical structure factor and a new method to measure the pairing gap in two-dimensional attractive Fermi-Hubbard model ( http://arxiv.org/abs/2305.09685v2 )

ライセンス: Link先を確認
Huaisong Zhao, Peng Zou, Feng Yuan, (参考訳) ブリルアンゾーンの高対称性方向に沿った動的構造因子を計算することにより、2次元2乗光学格子における魅力的なフェルミ・ハッバードモデルの動的励起をランダム位相近似を用いて研究する。 例えば、移動運動量${\bf q}=\left[0,0\right]$のゴールドストーンフォノンモードと、${\bf q}=\left[\pi,\pi\right]$のロートンモードである。 フォノンの起源はペアリングギャップの自発的なU(1)対称性の破れであり、その速度は相互作用強度によって抑制される。 集合ロトンモードは、大域的な擬スピンSU(2)対称性の破れに由来する。 }${\bf q}=\left[\pi,\pi\right]$での動的励起は、低エネルギー領域の鋭いロートン分子ピークと高エネルギー領域の広い原子励起バンドから構成される。 さらに、ロトン分子ピークの重みはホッピング強度の増加とともに単調に減少し、原子励起の重みは急速に増加する。 興味深いことに、ロトン分子ピークで被覆された領域はペアリングギャップの正方形でスケールし、スピン軌道カップリング系にも当てはまる。 この結論は、動的構造因子を${\bf q}=\left[\pi,\pi\right]$で測定することで、格子系のペアリングギャップを実験的に測定する潜在的な方法である。

By calculating the dynamical structure factor along the high symmetry directions in the Brillouin zone, the dynamical excitations of attractive Fermi-Hubbard model in a two-dimensional square optical lattice are studied with random phase approximation. {Two kinds of collective modes are investigated, including a Goldstone phonon mode at transferred momentum ${\bf q}=\left[0,0\right]$ and a roton mode at ${\bf q}=\left[\pi,\pi\right]$. The phonon origins from the spontaneously U(1) symmetry breaking of pairing gap, and its speed is suppressed by the interaction strength. The collective roton mode origins from the breaking of a global pseudospin SU(2) symmetry.} Dynamical excitations at ${\bf q}=\left[\pi,\pi\right]$ consist of a sharp roton molecular peak in the low-energy region and a broad atomic excitation band in the higher energy region. Furthermore, the weight of the roton molecular peak decreases monotonically with increasing the hopping strength, while the weight of the atomic excitations increases quickly. Interestingly we check that the area covered by the roton molecular peak scales with the square of the pairing gap, which is also true in the system with spin-orbit coupling. This conclusion paves a potential way to measure the pairing gap of lattice system experimentally by measuring the dynamical structure factor at ${\bf q}=\left[\pi,\pi\right]$.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# 反復学習とコミュニケーションによる文化進化 : 効率的なカラー命名システム

Cultural evolution via iterated learning and communication explains efficient color naming systems ( http://arxiv.org/abs/2305.10154v2 )

ライセンス: Link先を確認
Emil Carlsson, Devdatt Dubhashi, Terry Regier, (参考訳) セマンティックシステムは効率のプレッシャーを反映していると論じられ、現在の議論ではこのパターンを生み出す文化進化の過程について論じられている。 我々は、効率を情報ボトルネック(IB)の原理でインスタンス化したものとみなし、反復学習とコミュニケーションを組み合わせた文化進化のモデルと考えている。 ニューラルネットワークでインスタンス化されたこのモデルは、IBの意味で効率的で、人間のカラー命名システムと類似したカラー命名システムに収束することを示す。 また、反復学習のみ、コミュニケーション単独、凸カテゴリーの学習可能性の向上といった他の提案が、明らかに同じ結果をもたらすわけではないことも示している。 反復学習とコミュニケーションの組み合わせは、人間の意味体系が効率的になるための有効な手段となると結論付けている。

It has been argued that semantic systems reflect pressure for efficiency, and a current debate concerns the cultural evolutionary process that produces this pattern. We consider efficiency as instantiated in the Information Bottleneck (IB) principle, and a model of cultural evolution that combines iterated learning and communication. We show that this model, instantiated in neural networks, converges to color naming systems that are efficient in the IB sense and similar to human color naming systems. We also show that some other proposals such as iterated learning alone, communication alone, or the greater learnability of convex categories, do not yield the same outcome as clearly. We conclude that the combination of iterated learning and communication provides a plausible means by which human semantic systems become efficient.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# RetICL:強化学習を用いたインテクスト事例の逐次検索

RetICL: Sequential Retrieval of In-Context Examples with Reinforcement Learning ( http://arxiv.org/abs/2305.14502v2 )

ライセンス: Link先を確認
Alexander Scarlatos, Andrew Lan, (参考訳) 大規模な事前学習型言語モデルの最近の進歩は、様々な下流タスクにおいて前例のない性能を実現している。 これらのモデルで最高のパフォーマンスを得るには、モデルが1つまたは複数の例に対して(おそらく新しい)タスクを実行する、コンテキスト内学習を利用することが多い。 しかし、最近の研究では、サンプルの選択がタスクのパフォーマンスに大きな影響を与え、最適なサンプルセットを見つけることは簡単ではないことが示されている。 インコンテキストの例を選択するための既存のメソッドはたくさんありますが、一般的には、モデルに提供される依存関係と順序を無視して、個別にサンプルをスコアします。 In-Context Learning (RetICL) は,インコンテキスト学習のための事例を逐次的かつ最適に選択する学習可能な手法である。 マルコフ決定過程として逐次サンプル選択の問題を考察し、強化学習を用いてサンプルレトリバーを訓練する。 RetICLを数学用語の問題解決と科学的質問応答タスクで評価し、ヒューリスティックで学習可能なベースラインを一貫して上回ったり、マッチさせたりしていることを示す。 また、ケーススタディを用いて、RetICLが暗黙的に問題解決戦略の表現を学習していることを示す。

Recent developments in large pre-trained language models have enabled unprecedented performance on a variety of downstream tasks. Achieving best performance with these models often leverages in-context learning, where a model performs a (possibly new) task given one or more examples. However, recent work has shown that the choice of examples can have a large impact on task performance and that finding an optimal set of examples is non-trivial. While there are many existing methods for selecting in-context examples, they generally score examples independently, ignoring the dependency between them and the order in which they are provided to the model. In this work, we propose Retrieval for In-Context Learning (RetICL), a learnable method for modeling and optimally selecting examples sequentially for in-context learning. We frame the problem of sequential example selection as a Markov decision process and train an example retriever using reinforcement learning. We evaluate RetICL on math word problem solving and scientific question answering tasks and show that it consistently outperforms or matches heuristic and learnable baselines. We also use case studies to show that RetICL implicitly learns representations of problem solving strategies.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# 行動前を問う:言語モデルを用いた身体決定における情報収集

Asking Before Acting: Gather Information in Embodied Decision Making with Language Models ( http://arxiv.org/abs/2305.15695v2 )

ライセンス: Link先を確認
Xiaoyu Chen, Shenao Zhang, Pushi Zhang, Li Zhao, Jianyu Chen, (参考訳) 推論の強い能力と世界に対する幅広い理解により、Large Language Models (LLM) は、幅広いタスクを実行することができる多種多様な具体的意思決定エージェントを構築する大きな可能性を実証している。 しかし,不慣れな環境での展開では,LLMエージェントが本質的な情報を効率よく収集することの難しさに直面することが示され,準最適性能がもたらされる。 逆に、人間はしばしば行動を起こす前に仲間から追加情報を求め、不必要な試行や誤りを避けるために外部知識を活用する。 この行動からインスピレーションを得た『textit{Asking Before Acting} (ABA) 』は、エージェントが環境内の相互作用中に自然言語を用いた関連する情報に対して、外部ソースと積極的に問い合わせることを可能にする手法である。 このようにして、エージェントは、潜在的に手間のかかるステップを回避し、不慣れな環境での探索や指示の曖昧さに関連する困難に対処することにより、効率と性能を向上させることができる。 本研究では,テキストベースの日常タスク,ロボットアーム操作タスク,実世界のオープンドメインイメージベース実施タスクを含む,幅広い環境実験を行う。 実験にはヴィクナから GPT-4 まで様々なモデルが含まれる。 以上の結果から, ABA は低速で改良しても, ベースライン LLM エージェントよりも性能, 効率の両面で有意な優位性を示した。 メタデータ改革(ABA-FT)によってさらに微調整されたABAは、要求する根拠を学習し、特にベースラインが解決に苦しむタスクにおいて追加の強化を可能にする。

With strong capabilities of reasoning and a broad understanding of the world, Large Language Models (LLMs) have demonstrated immense potential in building versatile embodied decision-making agents capable of executing a wide array of tasks. Nevertheless, when deployed in unfamiliar environments, we show that LLM agents encounter challenges in efficiently gathering essential information, leading to suboptimal performance. Conversely, human individuals often seek additional information from their peers prior to taking action, harnessing external knowledge to avoid unnecessary trial and error. Drawing inspiration from this behavior, we propose \textit{Asking Before Acting} (ABA), a method that empowers the agent to proactively inquire with external sources for pertinent information using natural language during their interactions within the environment. In this way, the agent is able to enhance its efficiency and performance by circumventing potentially laborious steps and combating the difficulties associated with exploration in unfamiliar environments and vagueness of the instructions. We conduct extensive experiments involving a spectrum of environments including text-based household everyday tasks, robot arm manipulation tasks, and real world open domain image based embodied tasks. The experiments involve various models from Vicuna to GPT-4. The results demonstrate that, even with modest prompts modifications, ABA exhibits substantial advantages on both performance and efficiency over baseline LLM agents. Further finetuning ABA with reformulated metadata (ABA-FT) faciliates learning the rationale for asking and allows for additional enhancements especially in tasks that baselines struggle to solve.
翻訳日:2024-04-18 02:40:26 公開日:2024-04-16
# 設計によるIT/OT統合

IT/OT Integration by Design ( http://arxiv.org/abs/2305.19735v3 )

ライセンス: Link先を確認
Georg Schäfer, Hannes Waclawek, Sarah Riedmann, Christoph Binder, Christian Neureiter, Stefan Huber, (参考訳) 情報透明性、技術援助、相互接続、分散化決定の4つの設計原則は、産業システムに情報技術(IT)と運用技術(OT)を統合する際の課題を提起している。 これらの異なるソリューションには矛盾する要件があり、システムと組織の両方でインターフェースが問題になる。 ITとOTの領域の仲介役として機能するIBPT(Industrial Business Process Twin)エンティティは、この状況を克服するために必要なIT/OTインターフェースの量を効果的に削減するために、以前の研究で提案されている。 本研究では,設計段階におけるこのアプローチの効果について検討する。 組織構造におけるITとOTの利害関係者間の直接的インターフェースの衝突を排除することによって、このアプローチはシステム設計における競合する通信チャネルを効果的に排除する、と我々は主張する。 議論を検証するため、産業4.0の4つの重要な産業4.0設計原則に対処する産業4.0シナリオを用いて、参照アーキテクチャモデルインダストリー4.0(RAMI4.0)に従ってIBPT概念のモデルを開発する。 結果は、IBPTアプローチがシステム設計フェーズにおいて、潜在的に矛盾するIT/OTインターフェースを排除していることを示している。

The four Industry 4.0 design principles information transparency, technical assistance, interconnection, and decentralized decisions pose challenges in integrating information technology (IT) and operational technology (OT) solutions in industrial systems. These different solutions have conflicting requirements, making interfaces between them problematic for both systems and organizations. An Industrial Business Process Twin (IBPT) entity, acting as an intermediary between the realms of IT and OT, has been proposed in a previous work, to effectively reduce the amount of required IT/OT interfaces in an attempt of overcoming this situation. In this work, we investigate the effects of this approach during the design phase. We argue that, by eliminating potentially conflicting direct interfaces between IT and OT stakeholders within the organizational structure, this approach effectively eliminates conflicting communication channels within the system design. In order to verify our argument, we develop a model of our IBPT concept according to the Reference Architecture Model Industrie 4.0 (RAMI4.0) using an Industry 4.0 scenario addressing the four essential Industry 4.0 design principles. Results show that the IBPT approach indeed eliminates potentially conflicting IT/OT interfaces during the system design phase.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-16
# 交渉の言語

Language of Bargaining ( http://arxiv.org/abs/2306.07117v2 )

ライセンス: Link先を確認
Mourad Heddaya, Solomon Dworkin, Chenhao Tan, Rob Voigt, Alexander Zentefis, (参考訳) 交渉教育において確立された演習を活用して、言語の使用が二国間交渉をどのように行うかを研究するための新しいデータセットを構築した。 私たちのデータセットは、既存の作業を2つの方法で拡張しています。 1)クラウドソーシングプラットフォームではなく行動実験室を通じて参加者を募集し、参加者が音声で交渉できるようにし、より自然主義的な対話を可能にします。 2) 参加者が交互に書かれた数値オファーでのみ交渉する制御設定を追加する。 対照的な2種類のコミュニケーションにもかかわらず、平均的な合意された2つの処理の価格は同一であることがわかった。 しかし、話し合える場合、提案の交換が減り、交渉が早く終了し、合意に達する可能性が高くなり、同意する価格のばらつきが著しく低下する。 さらに、交渉における発話行為の分類を提案し、注釈付き音声行為でデータセットを充実させる。 我々の研究は、交渉の結果を予測する言語信号も明らかにしている。

Leveraging an established exercise in negotiation education, we build a novel dataset for studying how the use of language shapes bilateral bargaining. Our dataset extends existing work in two ways: 1) we recruit participants via behavioral labs instead of crowdsourcing platforms and allow participants to negotiate through audio, enabling more naturalistic interactions; 2) we add a control setting where participants negotiate only through alternating, written numeric offers. Despite the two contrasting forms of communication, we find that the average agreed prices of the two treatments are identical. But when subjects can talk, fewer offers are exchanged, negotiations finish faster, the likelihood of reaching agreement rises, and the variance of prices at which subjects agree drops substantially. We further propose a taxonomy of speech acts in negotiation and enrich the dataset with annotated speech acts. Our work also reveals linguistic signals that are predictive of negotiation outcomes.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-16
# 活性化関数の共設計によるディープニューラルネットワークの高速・プライベート推論

Fast and Private Inference of Deep Neural Networks by Co-designing Activation Functions ( http://arxiv.org/abs/2306.08538v2 )

ライセンス: Link先を確認
Abdulrahman Diaa, Lucas Fenaux, Thomas Humphries, Marian Dietz, Faezeh Ebrahimianghazani, Bailey Kacsmar, Xinda Li, Nils Lukas, Rasoul Akhavan Mahdavi, Simon Oya, Ehsan Amjadian, Florian Kerschbaum, (参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)は、豊富なコンピューティングリソースを持つ企業がディープニューラルネットワークをトレーニングし、画像分類などのタスクに対してクエリアクセスを提供するという、ますますポピュラーなデザインである。 この設計の課題は、MLaaSが顧客に対して、モデルをホストしている会社に対して、潜在的にセンシティブなクエリを明らかにすることを要求することだ。 マルチパーティ計算(MPC)は、暗号化された推論を許すことでクライアントのデータを保護する。 しかし、現在のアプローチは、非常に大きな推論時間に悩まされている。 MPCにおける推定時間ボトルネックは、ReLUアクティベーション関数のような非線形層の評価である。 従来の機械学習とMPCの協調設計の成功に触発されて,アクティベーション関数の共同設計を開発した。 我々は全てのReLUを多項式近似に置き換え、それらを単一ラウンドのMPCプロトコルで評価し、広域ネットワークにおける最先端の推論時間を与える。 さらに,以前に多項式アクティベーションで遭遇した精度問題に対処するために,平文モデルと競合する精度のトレーニングアルゴリズムを提案する。 我々の評価では、最大2300万ドルのパラメータを持つ大型モデル上での推論時間の高速化と、競合推論の精度を維持しながら、$3~$10\times$110\timesのスピードアップが示されています。

Machine Learning as a Service (MLaaS) is an increasingly popular design where a company with abundant computing resources trains a deep neural network and offers query access for tasks like image classification. The challenge with this design is that MLaaS requires the client to reveal their potentially sensitive queries to the company hosting the model. Multi-party computation (MPC) protects the client's data by allowing encrypted inferences. However, current approaches suffer from prohibitively large inference times. The inference time bottleneck in MPC is the evaluation of non-linear layers such as ReLU activation functions. Motivated by the success of previous work co-designing machine learning and MPC, we develop an activation function co-design. We replace all ReLUs with a polynomial approximation and evaluate them with single-round MPC protocols, which give state-of-the-art inference times in wide-area networks. Furthermore, to address the accuracy issues previously encountered with polynomial activations, we propose a novel training algorithm that gives accuracy competitive with plaintext models. Our evaluation shows between $3$ and $110\times$ speedups in inference time on large models with up to $23$ million parameters while maintaining competitive inference accuracy.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-16
# RemoteCLIP:リモートセンシングのためのビジョン言語基礎モデル

RemoteCLIP: A Vision Language Foundation Model for Remote Sensing ( http://arxiv.org/abs/2306.11029v4 )

ライセンス: Link先を確認
Fan Liu, Delong Chen, Zhangqingyun Guan, Xiaocong Zhou, Jiale Zhu, Qiaolin Ye, Liyong Fu, Jun Zhou, (参考訳) 汎用基盤モデルは、人工知能の最近のブレークスルーにつながっている。 リモートセンシングでは、基礎モデルを構築するために、自己教師付き学習(SSL)とMasked Image Modeling(MIM)が採用されている。 しかし、これらのモデルは、主に低レベルの特徴を学習し、微調整のために注釈付きデータを必要とする。 さらに、言語理解の欠如により、検索やゼロショットアプリケーションには適用できない。 こうした制約に対処するため,我々はリモートセンシングのための最初のビジョン言語基盤モデルであるRemoteCLIPを提案し,シームレスな下流アプリケーションのためのリッチなセマンティクスとアライメントされたテキスト埋め込みによる堅牢な視覚特徴の学習を目指している。 事前学習データの不足に対処するために、異種アノテーションをBox-to-Caption (B2C) と Mask-to-Box (M2B) の変換に基づく統合イメージキャプションデータフォーマットに変換するデータスケーリングを利用する。 UAV画像をさらに取り入れることで、利用可能なすべてのデータセットの組み合わせよりも12$\times$大きな事前トレーニングデータセットを生成します。 リモートCLIPは、ゼロショット画像分類、線形プローブ、$\textit{k}$-NN分類、少数ショット分類、画像テキスト検索、リモートセンシング画像におけるオブジェクトカウントなど、さまざまなダウンストリームタスクに適用できる。 オブジェクトカウント能力をテストするために新たに導入されたRemoteCountベンチマークを含む16のデータセットの評価は、RemoteCLIPがさまざまなモデルスケールでベースライン基盤モデルより一貫して優れていることを示している。 驚くべきことに、RemoteCLIPはRSITMDデータセットでは9.14%、RSICDデータセットでは8.92%という最先端の手法を破っている。 ゼロショット分類では、12の下流データセットの平均精度を最大6.39%向上させています。 プロジェクトウェブサイト:https://github.com/ChenDelong 1999/RemoteCLIP

General-purpose foundation models have led to recent breakthroughs in artificial intelligence. In remote sensing, self-supervised learning (SSL) and Masked Image Modeling (MIM) have been adopted to build foundation models. However, these models primarily learn low-level features and require annotated data for fine-tuning. Moreover, they are inapplicable for retrieval and zero-shot applications due to the lack of language understanding. To address these limitations, we propose RemoteCLIP, the first vision-language foundation model for remote sensing that aims to learn robust visual features with rich semantics and aligned text embeddings for seamless downstream application. To address the scarcity of pre-training data, we leverage data scaling which converts heterogeneous annotations into a unified image-caption data format based on Box-to-Caption (B2C) and Mask-to-Box (M2B) conversion. By further incorporating UAV imagery, we produce a 12 $\times$ larger pretraining dataset than the combination of all available datasets. RemoteCLIP can be applied to a variety of downstream tasks, including zero-shot image classification, linear probing, $\textit{k}$-NN classification, few-shot classification, image-text retrieval, and object counting in remote sensing images. Evaluation on 16 datasets, including a newly introduced RemoteCount benchmark to test the object counting ability, shows that RemoteCLIP consistently outperforms baseline foundation models across different model scales. Impressively, RemoteCLIP beats the state-of-the-art method by 9.14% mean recall on the RSITMD dataset and 8.92% on the RSICD dataset. For zero-shot classification, our RemoteCLIP outperforms the CLIP baseline by up to 6.39% average accuracy on 12 downstream datasets. Project website: https://github.com/ChenDelong1999/RemoteCLIP
翻訳日:2024-04-18 02:30:42 公開日:2024-04-16
# 善良な説明者は秘密裏に人間であるのか?

Are Good Explainers Secretly Human-in-the-Loop Active Learners? ( http://arxiv.org/abs/2306.13935v3 )

ライセンス: Link先を確認
Emma Thuong Nguyen, Abhishek Ghose, (参考訳) 説明可能なAI(XAI)技術は、ここ数年で複数のユースケースで人気を集めている。 ここでは、モデル予測の研究において、追加のトレーニングデータ収集に使用することを検討する。 これは、クエリ戦略がヒューマン・イン・ザ・ループを含むアクティブ・ラーニングと等価である、と我々は主張する。 我々は,人間の役割を数学的に近似し,エンド・ツー・エンドのワークフローを一般化する。 これにより、ワークフローの拡張を可能にしながら、この使用を標準のActive Learningアルゴリズムと厳格に比較することが可能になります。 もうひとつのメリットは、高価なユーザ調査を行う代わりに、シミュレーションを通じてそのユーティリティを評価することができることだ。 初期の有望な結果も提示する。

Explainable AI (XAI) techniques have become popular for multiple use-cases in the past few years. Here we consider its use in studying model predictions to gather additional training data. We argue that this is equivalent to Active Learning, where the query strategy involves a human-in-the-loop. We provide a mathematical approximation for the role of the human, and present a general formalization of the end-to-end workflow. This enables us to rigorously compare this use with standard Active Learning algorithms, while allowing for extensions to the workflow. An added benefit is that their utility can be assessed via simulation instead of conducting expensive user-studies. We also present some initial promising results.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-16
# 複数ラベルの分類に必要な正のラベル

Positive Label Is All You Need for Multi-Label Classification ( http://arxiv.org/abs/2306.16016v3 )

ライセンス: Link先を確認
Zhixiang Yuan, Kaixin Zhang, Tao Huang, (参考訳) マルチラベル分類(MLC)は、各画像に対して多様なセマンティックラベルを注釈付けすることにより、トレーニングデータにおけるラベルノイズによる課題に直面する。 現在の方法は、主に訓練されたMLCモデルを用いてラベルの誤りを特定し修正することを目的としているが、トレーニング中に持続的なノイズのあるラベルに悩まされ、不正確な認識と性能の低下をもたらす。 本稿では,MPCにおけるラベルノイズに,PU-MLC法を導入して対処する。 雑音ラベルに対処するために、負ラベルの多さとほとんどの雑音ラベルの起源に焦点をあてて、負ラベルを直接破棄する。 PU-MLCは正のラベル付き学習を採用し、正のラベルとラベルなしのデータだけでモデルを訓練する。 この方法は、損失関数の適応的再バランス係数と温度係数を組み込んでラベル分布の不均衡に対処し、トレーニング中の確率の過度な平滑化を防止する。 さらに,画像内の局所的およびグローバルな依存関係をバックボーン再トレーニングを必要とせずにキャプチャするローカル・グローバル・コンボリューション・モジュールを導入する。 PU-MLCは部分ラベル(MLC-PL)タスクでLCとLCに有効であることを証明し、より少ないアノテーションでMS-COCOとPASCAL VOCデータセットを大幅に改善した。 コードは、https://github.com/TAKELAMAG/PU-MLCで入手できる。

Multi-label classification (MLC) faces challenges from label noise in training data due to annotating diverse semantic labels for each image. Current methods mainly target identifying and correcting label mistakes using trained MLC models, but still struggle with persistent noisy labels during training, resulting in imprecise recognition and reduced performance. Our paper addresses label noise in MLC by introducing a positive and unlabeled multi-label classification (PU-MLC) method. To counteract noisy labels, we directly discard negative labels, focusing on the abundance of negative labels and the origin of most noisy labels. PU-MLC employs positive-unlabeled learning, training the model with only positive labels and unlabeled data. The method incorporates adaptive re-balance factors and temperature coefficients in the loss function to address label distribution imbalance and prevent over-smoothing of probabilities during training. Additionally, we introduce a local-global convolution module to capture both local and global dependencies in the image without requiring backbone retraining. PU-MLC proves effective on MLC and MLC with partial labels (MLC-PL) tasks, demonstrating significant improvements on MS-COCO and PASCAL VOC datasets with fewer annotations. Code is available at: https://github.com/TAKELAMAG/PU-MLC.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-16
# Unrolled Diffusion Model を用いた自己監督型MRI再構成

Self-Supervised MRI Reconstruction with Unrolled Diffusion Models ( http://arxiv.org/abs/2306.16654v2 )

ライセンス: Link先を確認
Yilmaz Korkmaz, Tolga Cukur, Vishal M. Patel, (参考訳) 磁気共鳴イメージング(MRI)は優れた軟組織コントラストを生成するが、本質的には遅い画像モダリティである。 高速化されたMRIスキャンを再構成する深層学習手法が最近提案されている。 しかし、既存の手法は、画像の忠実度、文脈感度、およびモデルトレーニングのための完全サンプル取得への依存に関する様々な制限に悩まされている。 これらの制約を包括的に解決するために,自己監督型拡散再構成モデル(SSDiffRecon)を提案する。 SSDiffReconは、物理駆動処理のためのデータ一貫性ブロックと逆拡散ステップのためのクロスアテンショントランスフォーマーをインターリーブする、無制御アーキテクチャとして条件付き拡散プロセスを表現する。 最近のMRI再構成の拡散法とは異なり、アンダーサンプルk空間データのみを用いてSSDiffReconを訓練するための自己超越戦略が採用されている。 公開脳MRデータセットに関する総合的な実験は、SSDiffReconの再構築速度と品質の観点から、最先端の教師付きベースラインと自己教師付きベースラインに対する優位性を実証している。 実装はhttps://github.com/yilmazkorkmaz1/SSDiffReconで公開される。

Magnetic Resonance Imaging (MRI) produces excellent soft tissue contrast, albeit it is an inherently slow imaging modality. Promising deep learning methods have recently been proposed to reconstruct accelerated MRI scans. However, existing methods still suffer from various limitations regarding image fidelity, contextual sensitivity, and reliance on fully-sampled acquisitions for model training. To comprehensively address these limitations, we propose a novel self-supervised deep reconstruction model, named Self-Supervised Diffusion Reconstruction (SSDiffRecon). SSDiffRecon expresses a conditional diffusion process as an unrolled architecture that interleaves cross-attention transformers for reverse diffusion steps with data-consistency blocks for physics-driven processing. Unlike recent diffusion methods for MRI reconstruction, a self-supervision strategy is adopted to train SSDiffRecon using only undersampled k-space data. Comprehensive experiments on public brain MR datasets demonstrates the superiority of SSDiffRecon against state-of-the-art supervised, and self-supervised baselines in terms of reconstruction speed and quality. Implementation will be available at https://github.com/yilmazkorkmaz1/SSDiffRecon.
翻訳日:2024-04-18 02:30:42 公開日:2024-04-16
# 非教師なし領域適応による信頼性・公正皮膚病変診断

Achieving Reliable and Fair Skin Lesion Diagnosis via Unsupervised Domain Adaptation ( http://arxiv.org/abs/2307.03157v2 )

ライセンス: Link先を確認
Janet Wang, Yunbei Zhang, Zhengming Ding, Jihun Hamm, (参考訳) 信頼性と公正な診断システムの開発は、ラベル付きデータの不足によって制約されることが多い。 この課題に対処するために、信頼性の高い分類器を開発するために、大規模な外部データセットを統合するために、教師なしドメイン適応(UDA)の実現可能性を検討する。 複数のソースによるUDAの採用は、トレーニングセットを同時に強化し、異なる取得プロトコルによって異なる皮膚病変データセット間のドメインギャップをブリッジすることができる。 特に、UDAは、ターゲットドメインから限られたラベル付きデータしか入手できないカスタムスキン病変データセットを使用したトレーニングにおいて、診断信頼性を向上させるための実践的な約束を示す。 本研究では、ソースデータ利用に基づく3つのUDAトレーニングスキーム(シングルソース、コンバインドソース、マルチソースUDA)について検討する。 以上の結果から,UDAを複数のソースに適用した2進分類と多進分類の有効性が示唆された。 複数クラスタスクにおけるテストエラーとラベルシフトとの間には強い相関関係が観察されている。 本研究は,UDAが少数派に対する偏見を効果的に軽減し,診断システムの公平性を向上し,優れた分類性能を維持したことを示すものである。 これは公平性を重視したテクニックを直接実装しなくても達成できる。 この成功は、複数の情報源から得られた人口統計情報の増加と順応性の高さに起因する可能性がある。

The development of reliable and fair diagnostic systems is often constrained by the scarcity of labeled data. To address this challenge, our work explores the feasibility of unsupervised domain adaptation (UDA) to integrate large external datasets for developing reliable classifiers. The adoption of UDA with multiple sources can simultaneously enrich the training set and bridge the domain gap between different skin lesion datasets, which vary due to distinct acquisition protocols. Particularly, UDA shows practical promise for improving diagnostic reliability when training with a custom skin lesion dataset, where only limited labeled data are available from the target domain. In this study, we investigate three UDA training schemes based on source data utilization: single-source, combined-source, and multi-source UDA. Our findings demonstrate the effectiveness of applying UDA on multiple sources for binary and multi-class classification. A strong correlation between test error and label shift in multi-class tasks has been observed in the experiment. Crucially, our study shows that UDA can effectively mitigate bias against minority groups and enhance fairness in diagnostic systems, while maintaining superior classification performance. This is achieved even without directly implementing fairness-focused techniques. This success is potentially attributed to the increased and well-adapted demographic information obtained from multiple sources.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-16
# ハードデータ一貫性による潜時拡散モデルによる逆問題の解法

Solving Inverse Problems with Latent Diffusion Models via Hard Data Consistency ( http://arxiv.org/abs/2307.08123v3 )

ライセンス: Link先を確認
Bowen Song, Soo Min Kwon, Zecheng Zhang, Xinyu Hu, Qing Qu, Liyue Shen, (参考訳) 拡散モデルは近年、逆問題を解決するための強力な生成前駆体として出現している。 しかし、画素空間におけるトレーニング拡散モデルは、データ集約的かつ計算的に要求されるものであり、医用画像などの高次元実世界のデータに対する先行データとしての適用性を制限している。 非常に低次元空間で動作する潜在拡散モデルは、これらの課題に対する解決策を提供する。 しかし、逆問題に対する遅延拡散モデルの導入は、エンコーダとデコーダの非線形性のため、依然として難しい問題である。 これらの問題に対処するために、事前学習された潜伏拡散モデルを用いて一般的な逆問題を解決するアルゴリズムである「textit{ReSample}」を提案する。 本アルゴリズムは,データ整合性(ハードデータ整合性)の概念である逆サンプリングプロセスにおいて,データ整合性(データ整合性)を解くことによって,データ整合性(データ整合性)を包含する。 この最適化問題の解決にあたり, 実測値を持つサンプルを雑音の多いデータ多様体にマッピングし, その利点を理論的に示す新しい再サンプリング手法を提案する。 最後に,本アルゴリズムを用いて,自然画像と医用画像の両方において,線形および非線形の逆問題に対する幅広い問題を解く。

Diffusion models have recently emerged as powerful generative priors for solving inverse problems. However, training diffusion models in the pixel space are both data-intensive and computationally demanding, which restricts their applicability as priors for high-dimensional real-world data such as medical images. Latent diffusion models, which operate in a much lower-dimensional space, offer a solution to these challenges. However, incorporating latent diffusion models to solve inverse problems remains a challenging problem due to the nonlinearity of the encoder and decoder. To address these issues, we propose \textit{ReSample}, an algorithm that can solve general inverse problems with pre-trained latent diffusion models. Our algorithm incorporates data consistency by solving an optimization problem during the reverse sampling process, a concept that we term as hard data consistency. Upon solving this optimization problem, we propose a novel resampling scheme to map the measurement-consistent sample back onto the noisy data manifold and theoretically demonstrate its benefits. Lastly, we apply our algorithm to solve a wide range of linear and nonlinear inverse problems in both natural and medical images, demonstrating that our approach outperforms existing state-of-the-art approaches, including those based on pixel-space diffusion models.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-16
# ゆるやかな変化を伴うユニバーサルオンライン学習:多層オンラインアンサンブルアプローチ

Universal Online Learning with Gradient Variations: A Multi-layer Online Ensemble Approach ( http://arxiv.org/abs/2307.08360v3 )

ライセンス: Link先を確認
Yu-Hu Yan, Peng Zhao, Zhi-Hua Zhou, (参考訳) 本稿では,2種類の適応性を持つオンライン凸最適化手法を提案する。 高いレベルでは、我々のアプローチは、オンライン機能の未知の種類や曲率に依存しないが、低いレベルでは、未知の環境の良さを生かし、問題に依存した保証を得ることができる。 具体的には、$\mathcal{O}(\log V_T)$, $\mathcal{O}(d \log V_T)$ and $\hat{\mathcal{O}}(\sqrt{V_T})$ regret bounds for strong convex, exp-concave and convex loss function, where $d$ is the dimension, $V_T$ describess problem-dependent gradient variation and $\hat{\mathcal{O}}(\cdot)$-notation omits $\log V_T$ factor。 我々の結果は、最悪のケースの保証を守るだけでなく、分析における小さな余分な境界を直接意味している。 さらに,逆/確率凸最適化やゲーム理論問題に適用すると,既存の普遍的保証が向上する。 提案手法は, 多様な機能種別を統一するための最適化や, アルゴリズム安定性のためのカスケード補正など, 斬新な要素を取り入れた多層オンラインアンサンブル・フレームワークをベースとしている。 特に,多層構造であるにもかかわらず,本アルゴリズムでは1ラウンドあたり1つの勾配クエリしか必要とせず,勾配評価に時間を要する場合に有利である。 これは、慎重に設計された代理損失を備えた新規な後悔分解によって促進される。

In this paper, we propose an online convex optimization approach with two different levels of adaptivity. On a higher level, our approach is agnostic to the unknown types and curvatures of the online functions, while at a lower level, it can exploit the unknown niceness of the environments and attain problem-dependent guarantees. Specifically, we obtain $\mathcal{O}(\log V_T)$, $\mathcal{O}(d \log V_T)$ and $\hat{\mathcal{O}}(\sqrt{V_T})$ regret bounds for strongly convex, exp-concave and convex loss functions, respectively, where $d$ is the dimension, $V_T$ denotes problem-dependent gradient variations and the $\hat{\mathcal{O}}(\cdot)$-notation omits $\log V_T$ factors. Our result not only safeguards the worst-case guarantees but also directly implies the small-loss bounds in analysis. Moreover, when applied to adversarial/stochastic convex optimization and game theory problems, our result enhances the existing universal guarantees. Our approach is based on a multi-layer online ensemble framework incorporating novel ingredients, including a carefully designed optimism for unifying diverse function types and cascaded corrections for algorithmic stability. Notably, despite its multi-layer structure, our algorithm necessitates only one gradient query per round, making it favorable when the gradient evaluation is time-consuming. This is facilitated by a novel regret decomposition equipped with carefully designed surrogate losses.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-16
# 古典記憶を用いたマルチ時間量子プロセスの階層化

Characterising the Hierarchy of Multi-time Quantum Processes with Classical Memory ( http://arxiv.org/abs/2307.11905v2 )

ライセンス: Link先を確認
Philip Taranto, Marco Túlio Quintino, Mio Murao, Simon Milz, (参考訳) メモリは時間的複雑さの基本的な形式であり、存在しても制御不能な場合には非マルコフノイズとして現れ、逆に制御可能であれば、メモリは情報処理の強力なリソースとなる。 メモリ効果は、システムと環境の間の相互作用を通じて伝達される。 現実的な観点では、古典的なメモリを持つ量子プロセスは、短期的な適用性を約束する:それらは、メモリレスのそれよりも強力であると同時に、デコヒーレンスによって損なわれることなく、重要な時間枠で制御できる。 しかし、実用的で基礎的な価値にもかかわらず、単純な2時間シナリオを除いて、量子メモリと古典メモリの区別は未解明のままである。 本稿では,従来の情報のみを転送するメモリ機構を用いて,マルチ時間量子プロセスの解析を行う。 この分析を補完し、構造的な観点からも古典的な記憶を持つと考えられるプロセスの集合を2つの関連性(しかし、より簡素な特徴付け)で研究し、これらがマルチ時間設定において顕著に異なる現象をもたらすことを実証する。 その後、量子力学におけるメモリ効果の完全な階層構造を体系的に階層化し、その多くのレベルが2時間設定で崩壊し、結果が真に複数時間現象となる。

Memory is the fundamental form of temporal complexity: when present but uncontrollable, it manifests as non-Markovian noise; conversely, if controllable, memory can be a powerful resource for information processing. Memory effects arise from/are transmitted via interactions between a system and its environment; as such, they can be either classical or quantum. From a practical standpoint, quantum processes with classical memory promise near-term applicability: they are more powerful than their memoryless counterpart, yet at the same time can be controlled over significant timeframes without being spoiled by decoherence. However, despite practical and foundational value, apart from simple two-time scenarios, the distinction between quantum and classical memory remains unexplored. Here, we analyse multi-time quantum processes with memory mechanisms that transmit only classical information forward in time. Complementing this analysis, we also study two related -- but simpler to characterise -- sets of processes that could also be considered to have classical memory from a structural perspective, and demonstrate that these lead to remarkably distinct phenomena in the multi-time setting. Subsequently, we systematically stratify the full hierarchy of memory effects in quantum mechanics, many levels of which collapse in the two-time setting, making our results genuinely multi-time phenomena.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-16
# WebArena: 自律エージェント構築のための現実的なWeb環境

WebArena: A Realistic Web Environment for Building Autonomous Agents ( http://arxiv.org/abs/2307.13854v4 )

ライセンス: Link先を確認
Shuyan Zhou, Frank F. Xu, Hao Zhu, Xuhui Zhou, Robert Lo, Abishek Sridhar, Xianyi Cheng, Tianyue Ou, Yonatan Bisk, Daniel Fried, Uri Alon, Graham Neubig, (参考訳) 生成AIの進歩により、自律エージェントは自然言語コマンドを通じて日々のタスクを管理することが可能になった。 しかし、現在のエージェントは主に単純な合成環境で作成され、テストされ、現実世界のシナリオと切り離される。 本稿では,現実的で再現性の高い言語誘導エージェントのための環境を構築する。 具体的には、Web上でタスクを実行するエージェントに焦点を当て、eコマース、ソーシャルフォーラムの議論、共同ソフトウェア開発、コンテンツ管理という4つの一般的なドメインから、完全に機能するWebサイトを持つ環境を構築する。 私たちの環境は、人間のようなタスク解決を促進するツール(例えば、地図)と外部知識ベース(例えば、ユーザーマニュアル)で豊かになっています。 我々の環境を基盤として、タスク完了の機能的正しさを評価することに焦点を当てた一連のベンチマークタスクをリリースする。 私たちのベンチマークのタスクは多様で、長い水平で、人間が日常的にインターネット上で実行するタスクをエミュレートするように設計されています。 我々はいくつかのベースラインエージェントを実験し、行動前に推論などの最近の手法を統合する。 GPT-4をベースとしたベストエージェントは、エンド・ツー・エンドのタスク成功率14.41%に過ぎず、人間のパフォーマンス78.24%よりも大幅に低い。 これらの結果は、より堅牢なエージェントの開発の必要性、現在の最先端の大規模言語モデルは、これらの現実的なタスクにおける完璧なパフォーマンスには程遠いこと、WebArenaがそのような進歩を測定するために使用できること、を浮き彫りにしている。

With advances in generative AI, there is now potential for autonomous agents to manage daily tasks via natural language commands. However, current agents are primarily created and tested in simplified synthetic environments, leading to a disconnect with real-world scenarios. In this paper, we build an environment for language-guided agents that is highly realistic and reproducible. Specifically, we focus on agents that perform tasks on the web, and create an environment with fully functional websites from four common domains: e-commerce, social forum discussions, collaborative software development, and content management. Our environment is enriched with tools (e.g., a map) and external knowledge bases (e.g., user manuals) to encourage human-like task-solving. Building upon our environment, we release a set of benchmark tasks focusing on evaluating the functional correctness of task completions. The tasks in our benchmark are diverse, long-horizon, and designed to emulate tasks that humans routinely perform on the internet. We experiment with several baseline agents, integrating recent techniques such as reasoning before acting. The results demonstrate that solving complex tasks is challenging: our best GPT-4-based agent only achieves an end-to-end task success rate of 14.41%, significantly lower than the human performance of 78.24%. These results highlight the need for further development of robust agents, that current state-of-the-art large language models are far from perfect performance in these real-life tasks, and that WebArena can be used to measure such progress.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-16
# 量子信号処理による導出価格設定

Derivative Pricing using Quantum Signal Processing ( http://arxiv.org/abs/2307.14310v2 )

ライセンス: Link先を確認
Nikitas Stamatopoulos, William J. Zeng, (参考訳) 量子コンピュータ上での金融デリバティブの価格設定は、典型的には、対応する回路が必要とする量子リソースに大きく貢献する量子演算成分を含む。 本稿では,QSP(Quantum Signal Processing)に基づく金融デリバティブペイオフを量子振幅に直接エンコードし,コストのかかる量子演算の負担から量子回路を緩和する手法を提案する。 文献における現在の最先端のアプローチと比較して、実践的関心を持つ微分契約の場合、QSPの適用は、考慮されるすべての指標、特に、Tゲートの総数は$\sim 16$x、論理量子ビットの総数は$\sim 4$xである。 さらに、量子優位性に必要な論理クロックレートも、$\sim 5$x の係数で低減されると推定する。 全体として、量子アドバンテージは4.7$k論理量子ビットを必要とし、量子デバイスは45$MHzのレートで10^9$Tゲートを実行できる。 本研究は,提案手法を最も容易に適用可能なデリバティブ価格プロセスのペイオフコンポーネントを特に重視する一方で,同様の手法を用いて,状態準備などの他のアプリケーションにおけるリソースの削減を図ることができる。

Pricing financial derivatives on quantum computers typically includes quantum arithmetic components which contribute heavily to the quantum resources required by the corresponding circuits. In this manuscript, we introduce a method based on Quantum Signal Processing (QSP) to encode financial derivative payoffs directly into quantum amplitudes, alleviating the quantum circuits from the burden of costly quantum arithmetic. Compared to current state-of-the-art approaches in the literature, we find that for derivative contracts of practical interest, the application of QSP significantly reduces the required resources across all metrics considered, most notably the total number of T-gates by $\sim 16$x and the number of logical qubits by $\sim 4$x. Additionally, we estimate that the logical clock rate needed for quantum advantage is also reduced by a factor of $\sim 5$x. Overall, we find that quantum advantage will require $4.7$k logical qubits, and quantum devices that can execute $10^9$ T-gates at a rate of $45$MHz. While in this work we focus specifically on the payoff component of the derivative pricing process where the method we present is most readily applicable, similar techniques can be employed to further reduce the resources in other applications, such as state preparation.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-16
# スモールラーニングレートSGDにおけるモーメントムのマージナル値

The Marginal Value of Momentum for Small Learning Rate SGD ( http://arxiv.org/abs/2307.15196v2 )

ライセンス: Link先を確認
Runzhe Wang, Sadhika Malladi, Tianhao Wang, Kaifeng Lyu, Zhiyuan Li, (参考訳) モーメントは、確率的勾配雑音を伴わない強い凸条件下での勾配降下の収束を加速することが知られている。 ニューラルネットワークのトレーニングのような確率的最適化において、民話では、モーメントは確率的勾配更新のばらつきを減らすことによって深層学習の最適化に役立つ可能性があるが、以前の理論的分析では、証明可能な加速を提供するモーメントが見つからない。 理論的には, 学習速度が小さく, 勾配雑音が不安定の原因となる確率的環境における運動量の役割を明らかにするとともに, 運動量のないSGDは, 短期・長期の地平線でも同様に振る舞うことが示唆された。 実験の結果,ImageNetのスクラッチから中小バッチまでの学習,下流タスクの微調整言語モデルなど,学習速度がそれほど大きくない実践的な学習体制において,モメンタは最適化と一般化の両方に制限があることがわかった。

Momentum is known to accelerate the convergence of gradient descent in strongly convex settings without stochastic gradient noise. In stochastic optimization, such as training neural networks, folklore suggests that momentum may help deep learning optimization by reducing the variance of the stochastic gradient update, but previous theoretical analyses do not find momentum to offer any provable acceleration. Theoretical results in this paper clarify the role of momentum in stochastic settings where the learning rate is small and gradient noise is the dominant source of instability, suggesting that SGD with and without momentum behave similarly in the short and long time horizons. Experiments show that momentum indeed has limited benefits for both optimization and generalization in practical training regimes where the optimal learning rate is not very large, including small- to medium-batch training from scratch on ImageNet and fine-tuning language models on downstream tasks.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-16
# 分子オプトメカニカルキャビティを用いた周波数アップコンバート赤外信号の増幅

Amplifying Frequency Up-Converted Infrared Signals with a Molecular Optomechanical Cavity ( http://arxiv.org/abs/2308.08782v3 )

ライセンス: Link先を確認
Fen Zou, Lei Du, Yong Li, Hui Dong, (参考訳) 分子オプティメカルカップリングによって実現された周波数アップコンバージョンは、近ごろ、信号の量子コヒーレント変換を通じて赤外線信号を可視域に変換するための有望なアプローチとして登場した。 しかし、これらの変換信号の検出は、本質的に弱い信号強度のため、大きな課題となる。 本研究では,分子光学系における周波数変換赤外信号に対して,1000以上の係数で信号強度を向上できる増幅機構を提案する。 この機構は分子集合モードとストークスサイドバンドポンプとの強い結合強化を利用する。 この研究は、赤外信号を可視域にアップコンバートするための実現可能なアプローチを示す。

Frequency up-conversion, enabled by molecular optomechanical coupling, has recently emerged as a promising approach for converting infrared signals into the visible range through quantum coherent conversion of signals. However, detecting these converted signals poses a significant challenge due to their inherently weak signal intensity. In this work, we propose an amplification mechanism capable of enhancing the signal intensity by a factor of 1000 or more for the frequency up-converted infrared signal in a molecular optomechanical system. The mechanism takes advantage of the strong coupling enhancement with molecular collective mode and Stokes sideband pump. This work demonstrates a feasible approach for up-converting infrared signals to the visible range.
翻訳日:2024-04-18 02:19:33 公開日:2024-04-16
# アウト・オブ・ディストリビューション検出におけるLDMの有効性

How Good Are LLMs at Out-of-Distribution Detection? ( http://arxiv.org/abs/2308.10261v4 )

ライセンス: Link先を確認
Bo Liu, Liming Zhan, Zexin Lu, Yujie Feng, Lei Xue, Xiao-Ming Wu, (参考訳) アウト・オブ・ディストリビューション(OOD)検出は、機械学習(ML)モデルの信頼性を高める上で重要な役割を果たす。 大規模言語モデル(LLM)の出現は、MLコミュニティ内のパラダイムシフトを触媒し、さまざまな自然言語処理タスクにまたがる優れた能力を示している。 既存の研究では、BERT、RoBERTa、GPT-2のような比較的小型のトランスフォーマーを用いたOOD検出が研究されているが、スケール、事前学習目標、推論パラダイムの相違は、これらの発見がLLMに適用可能であることを疑問視している。 本稿では, LLM 領域における OOD 検出の先駆的な研究に着手し, 7B から 65B までの LLaMA シリーズに着目した。 我々は,一般用OOD検出器を徹底的に評価し,ゼログレードおよび微調整のシナリオにおいて,その性能を精査した。 特に,LLMの事前学習目標を下流タスクと整合させて,従来の識別的in-distribution fine-tuningを生成的微調整に変更した。 以上の結果から, 簡易なコサイン距離OOD検出器は優れた有効性を示し, その他のOOD検出器よりも優れた性能を示した。 本研究では, LLM の埋め込み空間の等方性を強調し, より小さな BERT 系モデルで観測される異方性と明確に対比して, この現象の興味深い説明を行う。 この新たな洞察は、LDMがOODデータを検出する方法の理解を深め、動的環境における適合性と信頼性を高める。 我々は、他の研究者が結果を再現するためのソースコードを \url{https://github.com/Awenbocc/LLM-OOD} でリリースしました。

Out-of-distribution (OOD) detection plays a vital role in enhancing the reliability of machine learning (ML) models. The emergence of large language models (LLMs) has catalyzed a paradigm shift within the ML community, showcasing their exceptional capabilities across diverse natural language processing tasks. While existing research has probed OOD detection with relative small-scale Transformers like BERT, RoBERTa and GPT-2, the stark differences in scales, pre-training objectives, and inference paradigms call into question the applicability of these findings to LLMs. This paper embarks on a pioneering empirical investigation of OOD detection in the domain of LLMs, focusing on LLaMA series ranging from 7B to 65B in size. We thoroughly evaluate commonly-used OOD detectors, scrutinizing their performance in both zero-grad and fine-tuning scenarios. Notably, we alter previous discriminative in-distribution fine-tuning into generative fine-tuning, aligning the pre-training objective of LLMs with downstream tasks. Our findings unveil that a simple cosine distance OOD detector demonstrates superior efficacy, outperforming other OOD detectors. We provide an intriguing explanation for this phenomenon by highlighting the isotropic nature of the embedding spaces of LLMs, which distinctly contrasts with the anisotropic property observed in smaller BERT family models. The new insight enhances our understanding of how LLMs detect OOD data, thereby enhancing their adaptability and reliability in dynamic environments. We have released the source code at \url{https://github.com/Awenbocc/LLM-OOD} for other researchers to reproduce our results.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# ポントリャーギン指数を持つ3次元 $\mathcal{P}\mathcal{T}$-対称位相

Three-dimensional $\mathcal{P}\mathcal{T}$-symmetric topological phases with Pontryagin index ( http://arxiv.org/abs/2308.15555v2 )

ライセンス: Link先を確認
Zory Davoyan, Wojciech J. Jankowski, Adrien Bouhon, Robert-Jan Slager, (参考訳) スピンレス$\mathcal{P}\mathcal{T}$対称性で保護された3次元トポロジカル絶縁体と半金属のある種のクラスについて報告し、整数値のバルク不変量を持つ。 ホモトピー論を用いて、これらの位相は多重ギャップ位相をホストし、ホップ指数とは異なる3つの空間次元において単一の$\mathbb{Z}$不変量を実現する。 我々はこの不変性を、粒子物理学の文脈でBPSTインスタンスを記述するポントリャーギン指数と同一視し、三次元球面巻数に対応する。 我々は, ギャップを閉じることなく, 非アベリアの非アベリアブレイディングによって除去できる, 分割二元数電荷によって位相的に特徴付けられるマルチギャップ結合結節環の自然発生について検討した。 さらに、非アベリア・ベリー接続要素のゲージ不変結合の観点で記述された巻数と接続し、4次元のポントリャーギン特性類との関係を示す。 これらのトポロジカルな構成は、さらに4つのバンドの場合、2つの等クリニック回転に関連する一対の巻数で特徴づけられ、任意の数のバンドに一般化できる完全非退化多重ギャップ位相と関係している。 物理的観点から、このポントリャーギン指数に対応するエッジ状態や、ギャップ閉鎖障害による溶解状態も解析する。 最後に、これらの新しい非アベリア相、そのエッジ状態、音響メタマテリアルにおける結節構造およびトラップイオン実験の実現について詳述する。

We report on a certain class of three-dimensional topological insulators and semimetals protected by spinless $\mathcal{P}\mathcal{T}$ symmetry, hosting an integer-valued bulk invariant. We show using homotopy arguments that these phases host multi-gap topology, providing a realization of a single $\mathbb{Z}$ invariant in three spatial dimensions that is distinct from the Hopf index. We identify this invariant with the Pontryagin index, which describes BPST instantons in particle physics contexts and corresponds to a 3-sphere winding number. We study naturally arising multi-gap linked nodal rings, topologically characterized by split-biquaternion charges, which can be removed by non-Abelian braiding of nodal rings, even without closing a gap. We additionally connect the describing winding number in terms of gauge-invariant combinations of non-Abelian Berry connection elements, indicating relations to Pontryagin characteristic class in four dimensions. These topological configurations are furthermore related to fully non-degenerate multi-gap phases that are characterized by a pair of winding numbers relating to two isoclinic rotations in the case of four bands and can be generalized to an arbitrary number of bands. From a physical perspective, we also analyze the edge states corresponding to this Pontryagin index as well as their dissolution subject to the gap-closing disorder. Finally, we elaborate on the realization of these novel non-Abelian phases, their edge states and linked nodal structures in acoustic metamaterials and trapped-ion experiments.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# ビジョンモデルのためのディープビデオコーデック制御

Deep Video Codec Control for Vision Models ( http://arxiv.org/abs/2308.16215v6 )

ライセンス: Link先を確認
Christoph Reich, Biplob Debnath, Deep Patel, Tim Prangemeier, Daniel Cremers, Srimat Chakradhar, (参考訳) 標準的なロッキーなビデオコーディングは、ほとんどすべての現実世界のビデオ処理パイプラインの中核にある。 レート制御は、標準コーデックが異なるネットワーク帯域幅条件やストレージ制約に適応できるようにするために使用される。 しかし、標準的なビデオコーデック(H.264など)とそのレート制御モジュールは、人間の品質評価におけるビデオ歪みを最小限にすることを目的としている。 我々は、標準符号化ビデオがディープビジョンモデルの性能を著しく低下させたことを実証的に実証した。 視力性能の劣化を克服するため,既存の標準化に固執しつつ,帯域制限と下流の視力性能の両方を考慮し,エンド・ツー・エンドで学習可能な深層ビデオコーデック制御を提案する。 提案手法は,従来のビデオ符号化よりも,下流の深い視力性能を向上することを示す。

Standardized lossy video coding is at the core of almost all real-world video processing pipelines. Rate control is used to enable standard codecs to adapt to different network bandwidth conditions or storage constraints. However, standard video codecs (e.g., H.264) and their rate control modules aim to minimize video distortion w.r.t. human quality assessment. We demonstrate empirically that standard-coded videos vastly deteriorate the performance of deep vision models. To overcome the deterioration of vision performance, this paper presents the first end-to-end learnable deep video codec control that considers both bandwidth constraints and downstream deep vision performance, while adhering to existing standardization. We demonstrate that our approach better preserves downstream deep vision performance than traditional standard video coding.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# EmojiがGitHubの開発者参加と課題解決を推進

Emoji Promotes Developer Participation and Issue Resolution on GitHub ( http://arxiv.org/abs/2308.16360v3 )

ライセンス: Link先を確認
Yuhang Zhou, Xuan Lu, Ge Gao, Qiaozhu Mei, Wei Ai, (参考訳) パンデミックの間、リモートワークはますます採用されているが、多くはリモートワークの効率の低さに悩まされている。 テキストベースのコミュニケーションの欠如は、表情やボディランゲージのような非言語的な手がかりであり、効果的なコミュニケーションを妨げるとともに、作業結果に悪影響を及ぼす。 ソーシャルメディアのプラットフォームで広く使われている絵文字は、非言語的な代替手段として、バーチャルワークスペースでも人気を集めている。 本稿では,絵文字利用が仮想ワークスペースにおける開発者の参加や課題解決にどのように影響するかを検討する。 この目的のために、GitHubの課題を1年間収集し、絵文字の因果効果を測定するために因果推論手法を適用し、イシューコンテンツ、リポジトリ、著者情報などの共同設立者を管理する。 絵文字は問題の解決時間を大幅に短縮し、より多くのユーザーを惹きつけることができる。 また、異なる種類の問題に対する異種の影響も比較する。 これらの発見は、開発者コミュニティの理解を深め、インタラクションの促進と開発者の参加の拡大に関する設計上の意味を提供する。

Although remote working is increasingly adopted during the pandemic, many are concerned by the low-efficiency in the remote working. Missing in text-based communication are non-verbal cues such as facial expressions and body language, which hinders the effective communication and negatively impacts the work outcomes. Prevalent on social media platforms, emojis, as alternative non-verbal cues, are gaining popularity in the virtual workspaces well. In this paper, we study how emoji usage influences developer participation and issue resolution in virtual workspaces. To this end, we collect GitHub issues for a one-year period and apply causal inference techniques to measure the causal effect of emojis on the outcome of issues, controlling for confounders such as issue content, repository, and author information. We find that emojis can significantly reduce the resolution time of issues and attract more user participation. We also compare the heterogeneous effect on different types of issues. These findings deepen our understanding of the developer communities, and they provide design implications on how to facilitate interactions and broaden developer participation.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# 量子ビットの少ない量子化学

More Quantum Chemistry with Fewer Qubits ( http://arxiv.org/abs/2308.16873v2 )

ライセンス: Link先を確認
Jakob Günther, Alberto Baiardi, Markus Reiher, Matthias Christandl, (参考訳) 量子計算は、化学、固体物理学、材料科学、分子生物学など、電子と原子核からなる物理系のシミュレーションのための最も有望な新しいパラダイムの1つである。 これは有限個の軌道を用いて、電子構造ハミルトニアンの切り離された表現を必要とする。 原理的には、より多くの軌道を含むことによって表現を改善する方法が明確であるが、実際には(例えば、利用可能な量子ビットの数が限られているため)実現不可能であり、得られた結果の精度を著しく損なう。 本稿では,2次摂動理論を用いて物理問題の表現を改善する量子アルゴリズムを提案する。 特に、我々の量子アルゴリズムは、未摂動ハミルトニアンの下での一連の時間進化ステップを通じて、二階エネルギー補正を評価する。 重要な応用は、多参照摂動理論(英語版)として知られる仮想軌道の補正を含むことができるような活動空間近似を超えることである。 ここでは、未摂動ハミルトニアンが仮想軌道の対角線であり、量子ビットの数は仮想軌道の数とは独立であることを示す。 これにより、量子ビットの数を増やすことなく、より正確なエネルギー推定が生まれる。 さらに,本手法の全体実行時間は,従来の研究と比較して,仮想軌道の数に非常に好適であることを示す。 数値計算により、正確な基底状態エネルギー推定に到達するためには、マルチ参照摂動理論のエネルギー補正が必要であることが確認される。 我々の摂動理論は、シンメトリー適応摂動理論にも応用できる。 そのため、摂動理論を利用して量子化学の量子ハードウェア要件を小さくする。

Quantum computation is one of the most promising new paradigms for the simulation of physical systems composed of electrons and atomic nuclei, with applications in chemistry, solid-state physics, materials science, or molecular biology. This requires a truncated representation of the electronic structure Hamiltonian using a finite number of orbitals. While it is, in principle, obvious how to improve on the representation by including more orbitals, this is usually unfeasible in practice (e.g., because of the limited number of qubits available) and severely compromises the accuracy of the obtained results. Here, we propose a quantum algorithm that improves on the representation of the physical problem by virtue of second-order perturbation theory. In particular, our quantum algorithm evaluates the second-order energy correction through a series of time-evolution steps under the unperturbed Hamiltonian. An important application is to go beyond the active-space approximation, allowing to include corrections of virtual orbitals, known as multireference perturbation theory. Here, we exploit that the unperturbed Hamiltonian is diagonal for virtual orbitals and show that the number of qubits is independent of the number of virtual orbitals. This gives rise to more accurate energy estimates without increasing the number of qubits. Moreover, we demonstrate numerically for realistic chemical systems that the overall runtime of our method has highly favourable scaling in the number of virtual orbitals compared to previous work. The numerical calculations confirm the necessity of the multireference perturbation theory energy corrections to reach accurate ground state energy estimates. Our perturbation theory quantum algorithm can also be applied to Symmetry-Adapted Perturbation Theory. As such, we reduce the quantum hardware requirements for quantum chemistry by leveraging perturbation theory.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# 生オーディオ用コンブネットの不安定性

Instabilities in Convnets for Raw Audio ( http://arxiv.org/abs/2309.05855v3 )

ライセンス: Link先を確認
Daniel Haider, Vincent Lostanlen, Martin Ehler, Peter Balazs, (参考訳) 波形ベースのディープラーニングがなぜそんなに難しいのか? フィルタバンク設計のための畳み込みニューラルネットワーク (convnets) を訓練する試みは数多くあるが、手作りのベースラインを上回りしないことが多い。 これらの基底線は線形時間不変系であり、より広い受容場を持つ凸ネットによって近似することができる。 しかし、実際には勾配に基づく最適化は準最適近似をもたらす。 本稿では,この現象を初期化の観点から考察する。 ランダムなガウス重みを持つFIRフィルタバンクのエネルギー応答に対する大きな偏差の理論を示す。 その結果,大規模なフィルタや局所的な周期的な入力信号の偏差が悪化することが判明した。 数値シミュレーションは我々の理論と一致し、畳み込み層の条件数は、離散ウェーブレット基底を連想させるフィルタの数と長さの間の対数スケーリング則に従うことを示唆している。

What makes waveform-based deep learning so hard? Despite numerous attempts at training convolutional neural networks (convnets) for filterbank design, they often fail to outperform hand-crafted baselines. These baselines are linear time-invariant systems: as such, they can be approximated by convnets with wide receptive fields. Yet, in practice, gradient-based optimization leads to suboptimal approximations. In our article, we approach this phenomenon from the perspective of initialization. We present a theory of large deviations for the energy response of FIR filterbanks with random Gaussian weights. We find that deviations worsen for large filters and locally periodic input signals, which are both typical for audio signal processing applications. Numerical simulations align with our theory and suggest that the condition number of a convolutional layer follows a logarithmic scaling law between the number and length of the filters, which is reminiscent of discrete wavelet bases.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# 確率的プロトコルによる量子資源の可逆性

Reversibility of quantum resources through probabilistic protocols ( http://arxiv.org/abs/2309.07206v3 )

ライセンス: Link先を確認
Bartosz Regula, Ludovico Lami, (参考訳) 絡み合いのような量子資源の操作における最も基本的な問題は、全ての資源状態が可逆的に変換される可能性があることである。 この結果の鍵となる結果は、達成可能な変換率の限界を正確に定量化するユニークなエントロピー的資源測度を特定することである。 興味深いことに、以前の結果は、このような漸近的可逆性は非常に一般的な設定では真であると主張したが、最近これらの発見は不完全であることが判明し、この予想に疑問を投げかけた。 ここでは、確率的にしか成功しないプロトコルを許す限り、一般的な量子資源理論における全ての状態が可逆的に相互変換可能であることを示す。 このような変換は失敗する可能性はあるが、無限に多くの操作されたコピーの漸近的極限においても、その成功確率がゼロから外れることを保証することが示される。 前述したように、ここでの達成性は漸近的に資源を発生しない操作によって実現され、この選択が最適であることを示す。 提案手法は, 確率論的プロトコルの下での変換率と決定論的変換の強い逆率を結びつけることに基づいており, エンタングルメント蒸留の場合の正確な同値性を強化している。

Among the most fundamental questions in the manipulation of quantum resources such as entanglement is the possibility of reversibly transforming all resource states. The key consequence of this would be the identification of a unique entropic resource measure that exactly quantifies the limits of achievable transformation rates. Remarkably, previous results claimed that such asymptotic reversibility holds true in very general settings; however, recently those findings have been found to be incomplete, casting doubt on the conjecture. Here we show that it is indeed possible to reversibly interconvert all states in general quantum resource theories, as long as one allows protocols that may only succeed probabilistically. Although such transformations have some chance of failure, we show that their success probability can be ensured to be bounded away from zero, even in the asymptotic limit of infinitely many manipulated copies. As in previously conjectured approaches, the achievability here is realised through operations that are asymptotically resource non-generating, and we show that this choice is optimal: smaller sets of transformations cannot lead to reversibility. Our methods are based on connecting the transformation rates under probabilistic protocols with strong converse rates for deterministic transformations, which we strengthen into an exact equivalence in the case of entanglement distillation.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# 検証可能なプライバシ保護コンピューティング

Verifiable Privacy-Preserving Computing ( http://arxiv.org/abs/2309.08248v3 )

ライセンス: Link先を確認
Tariq Bontekoe, Dimka Karastoyanova, Fatih Turkmen, (参考訳) セキュアなマルチパーティ計算(MPC)やホモモルフィック暗号(HE)といったプライバシ保護計算(PPC)手法は、プライベートな分散データ上の計算におけるデータの機密性を保証するために、ますます頻繁に展開される。 同様に、局所的に実行される計算の(公的な)検証性を保証するため、ゼロ知識証明(ZKP)の採用が急激な増加を観察する。 データ集約型で強力なプライバシ保証を必要とするアプリケーションは、特にアウトソース時に、検証された正確性を保証する必要がある、と予測しています。 検証可能性とプライバシ保護の方法の組み合わせには明確なメリットがあるが、いくつかの課題は広く実用化される前に解決される。 本研究では,検証可能性とプライバシ保護計算を分散データ上で組み合わせた既存のソリューションを分析し,機密性を保護し,正確性を同時に保証する。 我々は、ソリューションアプローチ、セキュリティ、効率、実用性に関する37の異なるスキームを分類し比較する。 最後に、この点に関して最も有望なソリューションについて論じ、今後の研究に様々な課題と方向性を提示する。

Privacy-preserving computation (PPC) methods, such as secure multiparty computation (MPC) and homomorphic encryption (HE), are deployed increasingly often to guarantee data confidentiality in computations over private, distributed data. Similarly, we observe a steep increase in the adoption of zero-knowledge proofs (ZKPs) to guarantee (public) verifiability of locally executed computations. We project that applications that are data intensive and require strong privacy guarantees, are also likely to require verifiable correctness guarantees, especially when outsourced. While the combination of methods for verifiability and privacy protection has clear benefits, certain challenges stand before their widespread practical adoption. In this work, we analyze existing solutions that combine verifiability with privacy-preserving computations over distributed data, in order to preserve confidentiality and guarantee correctness at the same time. We classify and compare 37 different schemes, regarding solution approach, security, efficiency, and practicality. Lastly, we discuss some of the most promising solutions in this regard, and present various open challenges and directions for future research.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# PCN: 新しいグラフ構築法とチェビシェフグラフ畳み込みを利用したジェットタグの深層学習手法

PCN: A Deep Learning Approach to Jet Tagging Utilizing Novel Graph Construction Methods and Chebyshev Graph Convolutions ( http://arxiv.org/abs/2309.08630v4 )

ライセンス: Link先を確認
Yash Semlani, Mihir Relan, Krithik Ramesh, (参考訳) ジェットタグング(Jet tagging)は、高エネルギー物理実験における分類問題であり、粒子衝突からサブ原子粒子、ジェットの衝突した噴霧を識別し、エミッタ粒子にタグ付けすることを目的としている。 ジェットタグの進歩は、標準模型を超えた新しい物理学の探索の機会を与える。 現在のアプローチでは、複雑な衝突データに隠れたパターンを明らかにするためにディープラーニングを使用している。 しかし、深層学習モデルへの入力としてのジェットの表現は様々であり、しばしば、情報的特徴はモデルから得られない。 本研究では,できるだけ多くの情報をエンコードするジェットのグラフベース表現を提案する。 この表現を最大限に活用するために、ChebConv(ChebConv)を用いたグラフニューラルネットワーク(GNN)であるParticle Chebyshev Network(PCN)を設計する。 ChebConvは、GNNにおける古典グラフ畳み込みの効果的な代替手段として実証されており、ジェットタグの研究はまだ行われていない。 PCNは既存のタグよりも精度が大幅に向上し、高エネルギー物理実験においてジェットとChebConv層のグラフベース表現の研究への扉を開く。 コードはhttps://github.com/YVSemlani/PCN-Jet-Tagging.comで入手できる。

Jet tagging is a classification problem in high-energy physics experiments that aims to identify the collimated sprays of subatomic particles, jets, from particle collisions and tag them to their emitter particle. Advances in jet tagging present opportunities for searches of new physics beyond the Standard Model. Current approaches use deep learning to uncover hidden patterns in complex collision data. However, the representation of jets as inputs to a deep learning model have been varied, and often, informative features are withheld from models. In this study, we propose a graph-based representation of a jet that encodes the most information possible. To learn best from this representation, we design Particle Chebyshev Network (PCN), a graph neural network (GNN) using Chebyshev graph convolutions (ChebConv). ChebConv has been demonstrated as an effective alternative to classical graph convolutions in GNNs and has yet to be explored in jet tagging. PCN achieves a substantial improvement in accuracy over existing taggers and opens the door to future studies into graph-based representations of jets and ChebConv layers in high-energy physics experiments. Code is available at https://github.com/YVSemlani/PCN-Jet-Tagging.
翻訳日:2024-04-18 02:09:49 公開日:2024-04-16
# 量子学習の統計的複雑さ

Statistical Complexity of Quantum Learning ( http://arxiv.org/abs/2309.11617v2 )

ライセンス: Link先を確認
Leonardo Banchi, Jason Luke Pereira, Sharu Theresa Jose, Osvaldo Simeone, (参考訳) 近年、量子システムの特性の学習や量子コンピューティングによる古典的あるいは量子的データの処理のためにデータを使用するという問題に対して、重要な活動が行われている。 古典的な学習と同様に、量子学習の問題には、データを生成するメカニズムが未知な設定が含まれており、学習アルゴリズムの主目的は、データへのアクセスのみを与えられたときや、専門家の知識のようなサイド情報に対して、十分な精度のレベルを確保することである。 本稿では,データ複雑性,コピー複雑性,モデル複雑性に着目し,情報理論を用いた量子学習の複雑さを概観する。 コピー複雑性は、処理すべき状態が不可逆的に変化し、量子データについて抽出できる情報が制限される量子測定の破壊的な性質から生じる。 例えば、量子システムでは、古典的な機械学習とは異なり、同じ量子データを用いて複数の仮説に基づいてトレーニング損失を同時に評価することは一般的に不可能である。 研究コミュニティによって論文を自己完結させ、アプローチできるようにするため、統計的学習理論による古典的な結果や量子状態の識別可能性に関する幅広い背景資料を提供する。 全体としては、教師なし学習と教師なし学習の両方に対処することで、量子学習と古典学習の違いを強調し、文献に広範な指針を提供する。

Recent years have seen significant activity on the problem of using data for the purpose of learning properties of quantum systems or of processing classical or quantum data via quantum computing. As in classical learning, quantum learning problems involve settings in which the mechanism generating the data is unknown, and the main goal of a learning algorithm is to ensure satisfactory accuracy levels when only given access to data and, possibly, side information such as expert knowledge. This article reviews the complexity of quantum learning using information-theoretic techniques by focusing on data complexity, copy complexity, and model complexity. Copy complexity arises from the destructive nature of quantum measurements, which irreversibly alter the state to be processed, limiting the information that can be extracted about quantum data. For example, in a quantum system, unlike in classical machine learning, it is generally not possible to evaluate the training loss simultaneously on multiple hypotheses using the same quantum data. To make the paper self-contained and approachable by different research communities, we provide extensive background material on classical results from statistical learning theory, as well as on the distinguishability of quantum states. Throughout, we highlight the differences between quantum and classical learning by addressing both supervised and unsupervised learning, and we provide extensive pointers to the literature.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-16
# LogicMP: 一階論理制約を符号化するニューロシンボリックアプローチ

LogicMP: A Neuro-symbolic Approach for Encoding First-order Logic Constraints ( http://arxiv.org/abs/2309.15458v3 )

ライセンス: Link先を確認
Weidi Xu, Jingwei Wang, Lele Xie, Jianshan He, Hongting Zhou, Taifeng Wang, Xiaopei Wan, Jingdong Chen, Chao Qu, Wei Chu, (参考訳) ニューラルネットワークに一階述語論理制約(FOLC)を統合することは、制約を満たすために複雑な相関をモデル化する必要があるため、決定的だが難しい問題である。 本稿では,MLN上で平均場変動推定を行う新しいニューラルネットワーク層LogicMPを提案する。 モジュール性と効率を保ちながら、FOLCをエンコードするために、市販のニューラルネットワークにプラグインすることができる。 MLNの構造と対称性を利用することで、我々のよく設計された効率的な平均場反復がMLN推論の難しさを効果的に軽減し、逐次計算から一連の並列テンソル演算への推論を減らすことを理論的に証明する。 グラフ、画像、テキストの3種類のタスクを経験した結果、LogicMPは、パフォーマンスと効率の両面で、先進的な競合より優れています。

Integrating first-order logic constraints (FOLCs) with neural networks is a crucial but challenging problem since it involves modeling intricate correlations to satisfy the constraints. This paper proposes a novel neural layer, LogicMP, whose layers perform mean-field variational inference over an MLN. It can be plugged into any off-the-shelf neural network to encode FOLCs while retaining modularity and efficiency. By exploiting the structure and symmetries in MLNs, we theoretically demonstrate that our well-designed, efficient mean-field iterations effectively mitigate the difficulty of MLN inference, reducing the inference from sequential calculation to a series of parallel tensor operations. Empirical results in three kinds of tasks over graphs, images, and text show that LogicMP outperforms advanced competitors in both performance and efficiency.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-16
# 医用イメージングのための機械学習における解釈可能性の枠組み

A Framework for Interpretability in Machine Learning for Medical Imaging ( http://arxiv.org/abs/2310.01685v3 )

ライセンス: Link先を確認
Alan Q. Wang, Batuhan K. Karaman, Heejong Kim, Jacob Rosenthal, Rachit Saluja, Sean I. Young, Mert R. Sabuncu, (参考訳) 医療画像(MLMI)における機械学習モデルの解釈可能性は研究の重要な方向である。 しかし、解釈可能性の意味には、一般的な不吉感がある。 なぜMLMIにおける解釈可能性の必要性が生じるのか? 解釈可能性が必要なとき、実際にどんな目標を達成しようとしているのか? これらの疑問に答えるために、MLMIにおける解釈可能性の目標と要素を形式化する必要性を特定する。 医用画像解析と機械学習との共通点の両方に共通する実世界の課題と目標を推論することにより、我々は、解釈可能性の5つの中核要素、すなわち、ローカライゼーション、視覚的認識可能性、物理的帰属、モデルの透明性、行動可能性を特定する。 そこから、MLMIの解釈可能性のためのフレームワークに到達し、このコンテキストにおける解釈可能性へのステップバイステップガイドとして機能します。 本稿では,医療画像の文脈における解釈可能性の必要性を定式化し,具体的MLMI固有の目標と考察を明確化し,手法設計の指導と実世界の利用改善を図っている。 我々のゴールは、モデルデザイナや実践者に対して実践的で実践的な情報を提供することであり、医療画像分野のモデルを開発者に刺激し、解釈可能性の達成についてより深く推論し、解釈可能性研究の今後の方向性を提案することである。

Interpretability for machine learning models in medical imaging (MLMI) is an important direction of research. However, there is a general sense of murkiness in what interpretability means. Why does the need for interpretability in MLMI arise? What goals does one actually seek to address when interpretability is needed? To answer these questions, we identify a need to formalize the goals and elements of interpretability in MLMI. By reasoning about real-world tasks and goals common in both medical image analysis and its intersection with machine learning, we identify five core elements of interpretability: localization, visual recognizability, physical attribution, model transparency, and actionability. From this, we arrive at a framework for interpretability in MLMI, which serves as a step-by-step guide to approaching interpretability in this context. Overall, this paper formalizes interpretability needs in the context of medical imaging, and our applied perspective clarifies concrete MLMI-specific goals and considerations in order to guide method design and improve real-world usage. Our goal is to provide practical and didactic information for model designers and practitioners, inspire developers of models in the medical imaging field to reason more deeply about what interpretability is achieving, and suggest future directions of interpretability research.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-16
# 相互作用トレースからのマクロマイニングの大規模化

Automatic Macro Mining from Interaction Traces at Scale ( http://arxiv.org/abs/2310.07023v2 )

ライセンス: Link先を確認
Forrest Huang, Gang Li, Tao Li, Yang Li, (参考訳) Macrosは、日々のスマートフォン活動のブロックタスク(例えば、"login"、"booking a flight")を構築しています。 マクロを効果的に抽出することは、モバイルインタラクションを理解し、タスクの自動化を可能にするために重要である。 しかし、これらのマクロは、モバイルアプリのプログラムコンポーネント内に隠された複数のステップで構成されているため、大規模に抽出することは困難である。 本稿では,Large Language Models (LLMs) に基づく,ランダムおよびユーザによるモバイルインタラクショントレースから意味論的に意味のあるマクロを自動的に抽出する手法を提案する。 このアプローチによって生成されたマクロは、自然言語記述で自動的にタグ付けされ、完全に実行可能である。 本研究では,抽出したマクロの品質を評価するために,ユーザ評価,人為的タスクの比較分析,これらのマクロの自動実行など,複数の研究を行った。 これらの実験と解析は, 下流における抽出マクロの有効性と有用性を示すものである。

Macros are building block tasks of our everyday smartphone activity (e.g., "login", or "booking a flight"). Effectively extracting macros is important for understanding mobile interaction and enabling task automation. These macros are however difficult to extract at scale as they can be comprised of multiple steps yet hidden within programmatic components of mobile apps. In this paper, we introduce a novel approach based on Large Language Models (LLMs) to automatically extract semantically meaningful macros from both random and user-curated mobile interaction traces. The macros produced by our approach are automatically tagged with natural language descriptions and are fully executable. We conduct multiple studies to validate the quality of extracted macros, including user evaluation, comparative analysis against human-curated tasks, and automatic execution of these macros. These experiments and analyses show the effectiveness of our approach and the usefulness of extracted macros in various downstream applications.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-16
# 大規模言語モデルの評価と学習指導の評価

Evaluating Large Language Models at Evaluating Instruction Following ( http://arxiv.org/abs/2310.07641v2 )

ライセンス: Link先を確認
Zhiyuan Zeng, Jiatong Yu, Tianyu Gao, Yu Meng, Tanya Goyal, Danqi Chen, (参考訳) 大規模言語モデル(LLMs)の研究が加速し続けており、LLMに基づく評価は、絶え間なく増加するモデルのリストを比較するための、人間の評価に対するスケーラブルでコスト効率のよい代替品として現れてきた。 本稿では,これらの‘LLM評価器’の有効性について検討する。 我々は,命令追従出力の識別におけるLLM評価器の能力をテストするために,挑戦的なメタ評価ベンチマーク LLMBar を導入する。 著者らは419対のアウトプットを手作業でキュレートし、1つは指示に固執し、もう1つは発散するが、LLM評価器を誤解させる偽りの質、例えば、より魅力的なトーンを持っている。 従来のメタ評価とは対照的に,LLMBarでは異なる評価器(LLMとプロンプトの組み合わせ)が異なる性能を示し,上位評価器でも改善の余地があることが判明した。 また,LLMと人的評価器のギャップを埋める新たな戦略を提示する。 LLMBarでは、LCM評価器についてより深い知見を提供し、より良い命令追従モデルを開発するための将来の研究を奨励したいと考えています。

As research in large language models (LLMs) continues to accelerate, LLM-based evaluation has emerged as a scalable and cost-effective alternative to human evaluations for comparing the ever increasing list of models. This paper investigates the efficacy of these ``LLM evaluators'', particularly in using them to assess instruction following, a metric that gauges how closely generated text adheres to the given instruction. We introduce a challenging meta-evaluation benchmark, LLMBar, designed to test the ability of an LLM evaluator in discerning instruction-following outputs. The authors manually curated 419 pairs of outputs, one adhering to instructions while the other diverging, yet may possess deceptive qualities that mislead an LLM evaluator, e.g., a more engaging tone. Contrary to existing meta-evaluation, we discover that different evaluators (i.e., combinations of LLMs and prompts) exhibit distinct performance on LLMBar and even the highest-scoring ones have substantial room for improvement. We also present a novel suite of prompting strategies that further close the gap between LLM and human evaluators. With LLMBar, we hope to offer more insight into LLM evaluators and foster future research in developing better instruction-following models.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-16
# トランスフォーマーはいつ抽象シンボルで理にかなっているのか?

When can transformers reason with abstract symbols? ( http://arxiv.org/abs/2310.09753v2 )

ライセンス: Link先を確認
Enric Boix-Adsera, Omid Saremi, Emmanuel Abbe, Samy Bengio, Etai Littwin, Joshua Susskind, (参考訳) 関係推論タスクにおける変換器モデルの性能について検討する。 これらのタスクでは、モデルは抽象的な関係をコードする文字列のセットに基づいてトレーニングされ、トレーニングデータセットにないシンボルを含むデータに対して配布外テストされる。 本研究では,多種多様なタスクにおける関係推論タスクにおいて,十分な量のトレーニングデータに基づいて勾配降下法を用いて学習した際の抽象的関係を学習し,テストセットに一般化することを証明する。 これは、古典的な完全接続ネットワークとは対照的に、我々は推論を学ぶのに失敗している。 その結果,頭部に2つのトレーニング可能なパラメータのみを付加するトランスフォーマーアーキテクチャを改良し,データ効率の向上を実証的に実証した。

We investigate the capabilities of transformer models on relational reasoning tasks. In these tasks, models are trained on a set of strings encoding abstract relations, and are then tested out-of-distribution on data that contains symbols that did not appear in the training dataset. We prove that for any relational reasoning task in a large family of tasks, transformers learn the abstract relations and generalize to the test set when trained by gradient descent on sufficiently large quantities of training data. This is in contrast to classical fully-connected networks, which we prove fail to learn to reason. Our results inspire modifications of the transformer architecture that add only two trainable parameters per head, and that we empirically demonstrate improve data efficiency for learning to reason.
翻訳日:2024-04-18 01:59:49 公開日:2024-04-16
# VFLAIR: 垂直的フェデレーション学習のための研究ライブラリとベンチマーク

VFLAIR: A Research Library and Benchmark for Vertical Federated Learning ( http://arxiv.org/abs/2310.09827v2 )

ライセンス: Link先を確認
Tianyuan Zou, Zixuan Gu, Yu He, Hideaki Takahashi, Yang Liu, Ya-Qin Zhang, (参考訳) Vertical Federated Learning(VFL)は、同じグループの異なる機能を持つ参加者が、生のデータやモデルパラメータを公開せずに協調トレーニングを達成できるようにする、協調トレーニングパラダイムとして登場した。 近年、VFLは研究の可能性や現実世界の応用に大きな注目を集めているが、様々な種類のデータ推論やバックドア攻撃の防衛など、依然として重大な課題に直面している。 さらに、既存のVFLプロジェクトのほとんどは産業向けであり、現在の研究の進捗を追跡するのに簡単には使われていない。 このニーズに対処するために、拡張性があり軽量なVFLフレームワークであるVFLAIR(https://github.com/FLAIR-THU/VFLAIR)を紹介します。 また、異なる通信およびモデル分割設定下での11の攻撃と8の防御性能をベンチマークし、異なる実践的なVFLデプロイメントシナリオに対する防衛戦略の選択に関する具体的な洞察と推奨を引き出す。

Vertical Federated Learning (VFL) has emerged as a collaborative training paradigm that allows participants with different features of the same group of users to accomplish cooperative training without exposing their raw data or model parameters. VFL has gained significant attention for its research potential and real-world applications in recent years, but still faces substantial challenges, such as in defending various kinds of data inference and backdoor attacks. Moreover, most of existing VFL projects are industry-facing and not easily used for keeping track of the current research progress. To address this need, we present an extensible and lightweight VFL framework VFLAIR (available at https://github.com/FLAIR-THU/VFLAIR), which supports VFL training with a variety of models, datasets and protocols, along with standardized modules for comprehensive evaluations of attacks and defense strategies. We also benchmark 11 attacks and 8 defenses performance under different communication and model partition settings and draw concrete insights and recommendations on the choice of defense strategies for different practical VFL deployment scenarios.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# 協調的役割注入型LSMエージェントによるスタンス検出

Stance Detection with Collaborative Role-Infused LLM-Based Agents ( http://arxiv.org/abs/2310.10467v2 )

ライセンス: Link先を確認
Xiaochong Lan, Chen Gao, Depeng Jin, Yong Li, (参考訳) スタンス検出は、テキスト中のターゲットに対する姿勢を自動的に検出し、ウェブおよびソーシャルメディア研究におけるコンテンツ分析に不可欠である。 その有望な能力にもかかわらず、LCMは姿勢検出に直接適用する際の課題に直面する。 まず、スタンス検出は、イベント関連用語の解読からソーシャルメディアプラットフォームにおける表現スタイルの理解まで、多視点の知識を必要とする。 第二に、スタンス検出は著者の暗黙の視点を推測する高度な推論を必要とする。 これらの課題に対処するため,LLMがそれぞれ異なる役割を担っている3段階のフレームワーク COLA (Collaborative rOle-infused LLM-based Agents の略) を設計し,それぞれの役割が一意に貢献する協調システムを構築した。 まず,多次元テキスト分析の段階において,言語専門家,ドメインスペシャリスト,ソーシャルメディアベテランとして,テキストの多面的分析を行うLLMの設定を行い,最初の課題を克服する。 次に,潜在的スタンスごとに,LLMに基づく特定のエージェントを指定し,テキストの特徴と姿勢の論理的関係を検知し,第2の課題に対処する。 最後に、スタンス結論段階において、最終決定者エージェントが事前の洞察を統合してスタンスを決定する。 当社のアプローチは、追加の注釈付きデータやモデルトレーニングを回避し、非常に有効です。 複数のデータセットにまたがって最先端のパフォーマンスを実現する。 アブレーション研究は、姿勢検出の処理における各設計の役割の有効性を検証する。 さらなる実験は、我々のアプローチの説明可能性と汎用性を実証した。 当社のアプローチは,ユーザビリティ,正確性,有効性,説明可能性,汎用性に優れ,その価値を強調しています。

Stance detection automatically detects the stance in a text towards a target, vital for content analysis in web and social media research. Despite their promising capabilities, LLMs encounter challenges when directly applied to stance detection. First, stance detection demands multi-aspect knowledge, from deciphering event-related terminologies to understanding the expression styles in social media platforms. Second, stance detection requires advanced reasoning to infer authors' implicit viewpoints, as stance are often subtly embedded rather than overtly stated in the text. To address these challenges, we design a three-stage framework COLA (short for Collaborative rOle-infused LLM-based Agents) in which LLMs are designated distinct roles, creating a collaborative system where each role contributes uniquely. Initially, in the multidimensional text analysis stage, we configure the LLMs to act as a linguistic expert, a domain specialist, and a social media veteran to get a multifaceted analysis of texts, thus overcoming the first challenge. Next, in the reasoning-enhanced debating stage, for each potential stance, we designate a specific LLM-based agent to advocate for it, guiding the LLM to detect logical connections between text features and stance, tackling the second challenge. Finally, in the stance conclusion stage, a final decision maker agent consolidates prior insights to determine the stance. Our approach avoids extra annotated data and model training and is highly usable. We achieve state-of-the-art performance across multiple datasets. Ablation studies validate the effectiveness of each design role in handling stance detection. Further experiments have demonstrated the explainability and the versatility of our approach. Our approach excels in usability, accuracy, effectiveness, explainability and versatility, highlighting its value.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# 非線形オートエンコーダのための森-Zwanzig潜在空間クープマン閉包

Mori-Zwanzig latent space Koopman closure for nonlinear autoencoder ( http://arxiv.org/abs/2310.10745v2 )

ライセンス: Link先を確認
Priyam Gupta, Peter J. Schmid, Denis Sipp, Taraneh Sayadi, Georgios Rigas, (参考訳) クープマン作用素は、非線形系の大域的線形化を達成するための魅力的なアプローチを示し、複素力学の理解を単純化する貴重な方法である。 データ駆動の方法論は、有限クープマン作用素の近似において有望であるが、観測可能な変数の選択、次元の減少、複雑なシステムの振る舞いを正確に予測する能力など、様々な課題に悩まされている。 本研究は、低次元空間におけるクープマン作用素を頑健に近似する、MZ-AE(Mori-Zwanzig autoencoder)と呼ばれる新しいアプローチを提案する。 提案手法は非線形オートエンコーダを用いて,有限不変なクープマン部分空間を近似するキーオブザーバブルを抽出し,モリ・ズワンジッヒ形式を用いた非マルコフ補正機構を統合する。 これにより、非線形自己エンコーダの潜在多様体内の力学の閉表現が得られ、クープマン作用素近似の精度と安定性が向上する。 デモでは、シリンダー周りの流れにおける状態遷移を捉える技術が紹介されている。 また、倉本・シヴァシンスキーに対する低次元近似も提供し、短期予測可能性と堅牢な長期統計性能が期待できる。 データ駆動技術とクープマン理論の数学的基礎とのギャップを埋めることにより、MZ-AEは複雑な非線形力学の理解と予測を改善するための有望な道を提供する。

The Koopman operator presents an attractive approach to achieve global linearization of nonlinear systems, making it a valuable method for simplifying the understanding of complex dynamics. While data-driven methodologies have exhibited promise in approximating finite Koopman operators, they grapple with various challenges, such as the judicious selection of observables, dimensionality reduction, and the ability to predict complex system behaviors accurately. This study presents a novel approach termed Mori-Zwanzig autoencoder (MZ-AE) to robustly approximate the Koopman operator in low-dimensional spaces. The proposed method leverages a nonlinear autoencoder to extract key observables for approximating a finite invariant Koopman subspace and integrates a non-Markovian correction mechanism using the Mori-Zwanzig formalism. Consequently, this approach yields a closed representation of dynamics within the latent manifold of the nonlinear autoencoder, thereby enhancing the precision and stability of the Koopman operator approximation. Demonstrations showcase the technique's ability to capture regime transitions in the flow around a cylinder. It also provides a low dimensional approximation for Kuramoto-Sivashinsky with promising short-term predictability and robust long-term statistical performance. By bridging the gap between data-driven techniques and the mathematical foundations of Koopman theory, MZ-AE offers a promising avenue for improved understanding and prediction of complex nonlinear dynamics.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# 不均衡な分類のためのシャープエラー境界:マイノリティクラスで何つの例があるか?

Sharp error bounds for imbalanced classification: how many examples in the minority class? ( http://arxiv.org/abs/2310.14826v2 )

ライセンス: Link先を確認
Anass Aghbalou, François Portier, Anne Sabourin, (参考訳) 不均衡な分類データを扱う場合、損失関数の再重み付けは、リスク尺度内の真正と真負のレートの平衡を許容する標準手順である。 この領域における重要な理論的研究にもかかわらず、既存の結果は、完全なサンプルサイズと0に傾向のある確率によるリスク関数の再スケールの必要性に関して、1つのクラスの無視可能なサイズである不均衡分類フレームワークにおける主要な課題に適切に対処することができない。 このギャップに対処するため,(1)制約付き経験的リスク最小化のために制限された非漸近的高速速度確率,(2)隣接した推定値に対する一貫した上限という,希少なクラス確率が0に近づいた環境での新たな2つの寄与を示す。 本研究は, 現実的な環境下でのクラス重み付けのメリットをより明確に把握し, さらなる研究の道を開くことを目的としている。

When dealing with imbalanced classification data, reweighting the loss function is a standard procedure allowing to equilibrate between the true positive and true negative rates within the risk measure. Despite significant theoretical work in this area, existing results do not adequately address a main challenge within the imbalanced classification framework, which is the negligible size of one class in relation to the full sample size and the need to rescale the risk function by a probability tending to zero. To address this gap, we present two novel contributions in the setting where the rare class probability approaches zero: (1) a non asymptotic fast rate probability bound for constrained balanced empirical risk minimization, and (2) a consistent upper bound for balanced nearest neighbors estimates. Our findings provide a clearer understanding of the benefits of class-weighting in realistic settings, opening new avenues for further research in this field.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# チェックアグノシアに基づく量子LDPC符号のメッセージパッシング復号法

Check-Agnosia based Post-Processor for Message-Passing Decoding of Quantum LDPC Codes ( http://arxiv.org/abs/2310.15000v2 )

ライセンス: Link先を確認
Julien du Crest, Francisco Garcia-Herrero, Mehdi Mhalla, Valentin Savin, Javier Valls, (参考訳) 量子低密度パリティチェック符号の固有の縮退性は、古典的メッセージパッシングデコーダの誤り訂正性能を著しく低下させるため、復号化に挑戦する。 性能を向上させるために、通常、後処理アルゴリズムが使用される。 アルゴリズム解とハードウェアの限界のギャップを狭めるために,ハードウェアフレンドリな方向性を持つ新しい後処理アルゴリズムを導入し,最先端技術と競合する誤り訂正性能を提供する。 提案された後処理はチェック・アグノシアと呼ばれ、安定化器の不活性化にインスパイアされ、必要なハードウェアリソースを大幅に削減し、異なるメッセージパススケジュールやハードウェアアーキテクチャを実現するのに十分な柔軟性を提供する。 FPGA基板上に実装された設計結果から,レイテンシと消費電力のトレードオフが異なるParetoアーキテクチャの詳細な解析を行う。 FPGA基板上では,1マイクロ秒に近いレイテンシ値が得られることを示すとともに,ASIC実装においてより低いレイテンシ値が得られることを示す。 このプロセスでは、最近導入されたt被覆層とランダムオーダー層スケジューリングの実践的意味も示す。

The inherent degeneracy of quantum low-density parity-check codes poses a challenge to their decoding, as it significantly degrades the error-correction performance of classical message-passing decoders. To improve their performance, a post-processing algorithm is usually employed. To narrow the gap between algorithmic solutions and hardware limitations, we introduce a new post-processing algorithm with a hardware-friendly orientation, providing error correction performance competitive to the state-of-the-art techniques. The proposed post-processing, referred to as check-agnosia, is inspired by stabilizer-inactivation, while considerably reducing the required hardware resources, and providing enough flexibility to allow different message-passing schedules and hardware architectures. We carry out a detailed analysis for a set of Pareto architectures with different tradeoffs between latency and power consumption, derived from the results of implemented designs on an FPGA board. We show that latency values close to one microsecond can be obtained on the FPGA board, and provide evidence that much lower latency values can be obtained for ASIC implementations. In the process, we also demonstrate the practical implications of the recently introduced t-covering layers and random-order layered scheduling.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# ランダム二項列を用いた文脈内学習ダイナミクス

In-Context Learning Dynamics with Random Binary Sequences ( http://arxiv.org/abs/2310.17639v3 )

ライセンス: Link先を確認
Eric J. Bigelow, Ekdeep Singh Lubana, Robert P. Dick, Hidenori Tanaka, Tomer D. Ullman, (参考訳) 巨大な言語モデル(LLM)は、大量のテキストデータセットに基づいてトレーニングされた。 LLM能力の正確な性質は、しばしば謎めいたものであり、異なるプロンプトは、コンテキスト内学習を通じて異なる能力を引き出すことができる。 本研究では,LLMの行動パターンに基づく潜在概念を理解するために,文脈内学習のダイナミクスを解析できるフレームワークを提案する。 これは成功または失敗評価ベンチマークよりも微妙な理解を提供するが、回路の機械的解釈として内部のアクティベーションを観察する必要はない。 人間のランダム性知覚の認知科学に触発されて、ランダムなバイナリシーケンスをコンテキストとして使用し、シーケンス長などのコンテキストデータの特性を操作することによって、コンテキスト内学習のダイナミクスを研究する。 最新の GPT-3.5+ モデルでは、一見ランダムな数を生成し、基本形式言語を学習する創発的な能力を見出した。

Large language models (LLMs) trained on huge corpora of text datasets demonstrate intriguing capabilities, achieving state-of-the-art performance on tasks they were not explicitly trained for. The precise nature of LLM capabilities is often mysterious, and different prompts can elicit different capabilities through in-context learning. We propose a framework that enables us to analyze in-context learning dynamics to understand latent concepts underlying LLMs' behavioral patterns. This provides a more nuanced understanding than success-or-failure evaluation benchmarks, but does not require observing internal activations as a mechanistic interpretation of circuits would. Inspired by the cognitive science of human randomness perception, we use random binary sequences as context and study dynamics of in-context learning by manipulating properties of context data, such as sequence length. In the latest GPT-3.5+ models, we find emergent abilities to generate seemingly random numbers and learn basic formal languages, with striking in-context learning dynamics where model outputs transition sharply from seemingly random behaviors to deterministic repetition.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# エンボディードタスクに対する一般化可能なポリシとしての大規模言語モデル

Large Language Models as Generalizable Policies for Embodied Tasks ( http://arxiv.org/abs/2310.17722v2 )

ライセンス: Link先を確認
Andrew Szot, Max Schwarzer, Harsh Agrawal, Bogdan Mazoure, Walter Talbott, Katherine Metcalf, Natalie Mackraz, Devon Hjelm, Alexander Toshev, (参考訳) 大規模言語モデル(LLM)は,視覚的タスクを具現化するための一般化可能なポリシーに適応可能であることを示す。 我々のアプローチはLarge LAnguage Model Reinforcement Learning Policy (LLaRP)と呼ばれ、学習済みの凍結LDMに適応し、入力テキスト命令と視覚的自我中心の観察と出力動作を環境内で直接行う。 強化学習を用いてLLaRPを訓練し,環境相互作用のみを通して学習・行動する。 LLaRPはタスク命令の複雑なパラフレーズに対して堅牢であり、新しい最適な振る舞いを必要とする新しいタスクに一般化可能であることを示す。 特に1,000の未確認タスクでは、42%の成功率、1.7倍の成功率を達成する。 最後に、言語条件付き、膨大なマルチタスク、具体化されたAI問題を研究するコミュニティを支援するために、新しいベンチマークであるLanguage Rearrangementをリリースしました。 未確認言語再配列命令におけるLLaRPの動画例はhttps://llm-rl.github.io.com/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s /s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/s/

We show that large language models (LLMs) can be adapted to be generalizable policies for embodied visual tasks. Our approach, called Large LAnguage model Reinforcement Learning Policy (LLaRP), adapts a pre-trained frozen LLM to take as input text instructions and visual egocentric observations and output actions directly in the environment. Using reinforcement learning, we train LLaRP to see and act solely through environmental interactions. We show that LLaRP is robust to complex paraphrasings of task instructions and can generalize to new tasks that require novel optimal behavior. In particular, on 1,000 unseen tasks it achieves 42% success rate, 1.7x the success rate of other common learned baselines or zero-shot applications of LLMs. Finally, to aid the community in studying language conditioned, massively multi-task, embodied AI problems we release a novel benchmark, Language Rearrangement, consisting of 150,000 training and 1,000 testing tasks for language-conditioned rearrangement. Video examples of LLaRP in unseen Language Rearrangement instructions are at https://llm-rl.github.io.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# バイオメディカルトリプル抽出における大規模ランゲージモデルの作成

Benchingmaking Large Langage Models in Biomedical Triple Extraction ( http://arxiv.org/abs/2310.18463v4 )

ライセンス: Link先を確認
Mingchen Li, Huixue Zhou, Rui Zhang, (参考訳) バイオメディカルトリプル抽出システムは、自動的にバイオメディカルエンティティとエンティティ間の関係を抽出することを目的としている。 大規模言語モデル(LLM)を3重抽出に適用することの探索は、まだ比較的未検討である。 本研究では,主に文レベルのバイオメディカルトリプル抽出に注目した。 さらに,高品質なバイオメディカルトリプル抽出データセットの欠如は,ロバストトリプル抽出システムの開発の進展を妨げている。 これらの課題に対処するため、まず様々な大規模言語モデルの性能を比較する。 さらに,より広範な関係型をカバーする,専門家によるバイオメディカルトリプル抽出データセットであるGITを提案する。

Biomedical triple extraction systems aim to automatically extract biomedical entities and relations between entities. The exploration of applying large language models (LLM) to triple extraction is still relatively unexplored. In this work, we mainly focus on sentence-level biomedical triple extraction. Furthermore, the absence of a high-quality biomedical triple extraction dataset impedes the progress in developing robust triple extraction systems. To address these challenges, initially, we compare the performance of various large language models. Additionally, we present GIT, an expert-annotated biomedical triple extraction dataset that covers a wider range of relation types.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# Atom: 効率的かつ高精度なLLMサービングのための低ビット量子化

Atom: Low-bit Quantization for Efficient and Accurate LLM Serving ( http://arxiv.org/abs/2310.19102v3 )

ライセンス: Link先を確認
Yilong Zhao, Chien-Yu Lin, Kan Zhu, Zihao Ye, Lequn Chen, Size Zheng, Luis Ceze, Arvind Krishnamurthy, Tianqi Chen, Baris Kasikci, (参考訳) コンテンツ生成、インテリジェントチャットボット、感情分析といったアプリケーションにおけるLLM(Large Language Models)の需要の増加は、LLMサービスプロバイダにとって大きな課題となっている。 GPUリソースを効率的に使用しスループットを向上するために、複数のリクエストのバッチ化が一般的なパラダイムとして現れ、バッチ化をさらにスピードアップするため、LLM量子化技術はメモリ消費を削減し、計算能力を向上させる。 しかし、一般的な量子化スキーム(例えば、8ビットの重み-アクティベーション量子化)は、4ビット整数演算子のような現代のGPUの能力を十分に活用できないため、準最適性能が得られる。 LLMのスループットを最大化するために,低ビット量子化法であるAtomを導入する。 Atomは低ビット演算子を使用することでスループットを大幅に向上し、低ビット量子化によるメモリ消費を大幅に削減する。 新規な混合精度および微粒化量子化プロセスを適用することにより、高精度を実現する。 我々は4ビットの重み-アクティベーション量子化におけるAtomの評価を行った。 Atomは、FP16と比較して最大7.7\times$、INT8量子化と比較して2.5\times$で、同じレイテンシターゲットを維持しながら、エンドツーエンドのスループット(token/s)を改善する。

The growing demand for Large Language Models (LLMs) in applications such as content generation, intelligent chatbots, and sentiment analysis poses considerable challenges for LLM service providers. To efficiently use GPU resources and boost throughput, batching multiple requests has emerged as a popular paradigm; to further speed up batching, LLM quantization techniques reduce memory consumption and increase computing capacity. However, prevalent quantization schemes (e.g., 8-bit weight-activation quantization) cannot fully leverage the capabilities of modern GPUs, such as 4-bit integer operators, resulting in sub-optimal performance. To maximize LLMs' serving throughput, we introduce Atom, a low-bit quantization method that achieves high throughput improvements with negligible accuracy loss. Atom significantly boosts serving throughput by using low-bit operators and considerably reduces memory consumption via low-bit quantization. It attains high accuracy by applying a novel mixed-precision and fine-grained quantization process. We evaluate Atom on 4-bit weight-activation quantization in the serving context. Atom improves end-to-end throughput (token/s) by up to $7.7\times$ compared to the FP16 and by $2.5\times$ compared to INT8 quantization, while maintaining the same latency target.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# 再利用を学ぶ:知識スコープの制限と拒否メカニズムを通じて、大規模言語モデルをより制御可能で信頼性の高いものにする

Learn to Refuse: Making Large Language Models More Controllable and Reliable through Knowledge Scope Limitation and Refusal Mechanism ( http://arxiv.org/abs/2311.01041v2 )

ライセンス: Link先を確認
Lang Cao, (参考訳) 大きな言語モデル(LLM)は印象的な言語理解と生成能力を示し、様々な領域にわたる幅広い質問に答えることを可能にする。 しかし、これらのモデルは欠陥がなく、しばしばエラーや誤報を含む応答を生成する。 これらの不正確さは、一般に幻覚と呼ばれ、多くのシナリオでLLMを信頼できない、さらには使用できないようにしている。 本稿では,LLMにおける幻覚の問題を,特に質問応答の文脈において緩和することに焦点を当てる。 全ての質問に答える代わりに、私たちはLLMにエラーを避けるために難しい質問に答えることを拒否するように指示する拒絶メカニズムを探求する。 そこで我々は,L2R(Learning to Refuse)と呼ばれるシンプルで効果的な解を提案する。 これを実現するため、構造化知識ベースを用いてLLMの世界のすべての理解を表現し、追跡可能な金の知識を提供する。 この知識基盤はLLMとは分離されており、当初は空だった。 検証済みの知識で満たされ、徐々に拡張される。 LLMがドメイン外の質問に遭遇すると、システムはその知識の範囲を認識し、その質問に答えられるかどうかを判断する。 さらに,LLMの知識ベースを自動的かつ効率的に拡張する手法を提案する。 定性的かつ定量的な分析により,LLMの可制御性と信頼性が向上することが実証された。

Large language models (LLMs) have demonstrated impressive language understanding and generation capabilities, enabling them to answer a wide range of questions across various domains. However, these models are not flawless and often produce responses that contain errors or misinformation. These inaccuracies, commonly referred to as hallucinations, render LLMs unreliable and even unusable in many scenarios. In this paper, our focus is on mitigating the issue of hallucination in LLMs, particularly in the context of question-answering. Instead of attempting to answer all questions, we explore a refusal mechanism that instructs LLMs to refuse to answer challenging questions in order to avoid errors. We then propose a simple yet effective solution called Learn to Refuse (L2R), which incorporates the refusal mechanism to enable LLMs to recognize and refuse to answer questions that they find difficult to address. To achieve this, we utilize a structured knowledge base to represent all the LLM's understanding of the world, enabling it to provide traceable gold knowledge. This knowledge base is separate from the LLM and initially empty. It can be filled with validated knowledge and progressively expanded. When an LLM encounters questions outside its domain, the system recognizes its knowledge scope and determines whether it can answer the question independently. Additionally, we introduce a method for automatically and efficiently expanding the knowledge base of LLMs. Through qualitative and quantitative analysis, we demonstrate that our approach enhances the controllability and reliability of LLMs.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# GPT-4V-AD:ゼロショット異常検出のためのVQA指向型GPT-4Vの接地電位探索

GPT-4V-AD: Exploring Grounding Potential of VQA-oriented GPT-4V for Zero-shot Anomaly Detection ( http://arxiv.org/abs/2311.02612v2 )

ライセンス: Link先を確認
Jiangning Zhang, Haoyang He, Xuhai Chen, Zhucun Xue, Yabiao Wang, Chengjie Wang, Lei Xie, Yong Liu, (参考訳) 大規模マルチモーダルモデル(LMM) GPT-4V(ision)は、視覚的グラウンドリング機能を備えたGPT-4を提供し、視覚的質問応答(VQA)パラダイムを通じて特定のタスクを処理可能にする。 本稿では,最近普及している視覚異常検出(AD)におけるVQA指向のGPT-4Vの可能性について検討し,MVTec ADとVisAデータセットの質的,定量的な評価を行った。 このタスクは画像とピクセルレベルの評価の両方を必要とするため、提案されたGPT-4V-ADフレームワークは以下の3つのコンポーネントを含む: \textbf{\textit{1)}} 粒界分割、 \textbf{\textit{2)}} プロンプト設計、 \textbf{\textit{3)}} 簡単な定量的評価のためのText2Segmentation 。 その結果,MVTec AD と VisA のデータセット上で,画像レベル 77.1/88.0 と画素レベル 68.0/76.6 AU-ROC をそれぞれ達成するなど,VQA パラダイムによるゼロショット AD タスクにおいて,GPT-4V が一定の結果を得ることができた。 しかし、その性能は、最先端のゼロショット法である \eg、WinCLIP、CLIP-AD と比較しても一定の差があり、さらなる研究が必要である。 本研究は, ゼロショットADタスクにおけるVQA指向LMMの研究の基準となる基準を提供するとともに, いくつかの今後の課題も提示する。 コードは \url{https://github.com/zhangzjn/GPT-4V-AD} で公開されている。

Large Multimodal Model (LMM) GPT-4V(ision) endows GPT-4 with visual grounding capabilities, making it possible to handle certain tasks through the Visual Question Answering (VQA) paradigm. This paper explores the potential of VQA-oriented GPT-4V in the recently popular visual Anomaly Detection (AD) and is the first to conduct qualitative and quantitative evaluations on the popular MVTec AD and VisA datasets. Considering that this task requires both image-/pixel-level evaluations, the proposed GPT-4V-AD framework contains three components: \textbf{\textit{1)}} Granular Region Division, \textbf{\textit{2)}} Prompt Designing, \textbf{\textit{3)}} Text2Segmentation for easy quantitative evaluation, and have made some different attempts for comparative analysis. The results show that GPT-4V can achieve certain results in the zero-shot AD task through a VQA paradigm, such as achieving image-level 77.1/88.0 and pixel-level 68.0/76.6 AU-ROCs on MVTec AD and VisA datasets, respectively. However, its performance still has a certain gap compared to the state-of-the-art zero-shot method, \eg, WinCLIP and CLIP-AD, and further researches are needed. This study provides a baseline reference for the research of VQA-oriented LMM in the zero-shot AD task, and we also post several possible future works. Code is available at \url{https://github.com/zhangzjn/GPT-4V-AD}.
翻訳日:2024-04-18 01:50:05 公開日:2024-04-16
# NLPとソフトウェア工学の視点を統一する: コードの言語モデルに関する調査

Unifying the Perspectives of NLP and Software Engineering: A Survey on Language Models for Code ( http://arxiv.org/abs/2311.07989v5 )

ライセンス: Link先を確認
Ziyin Zhang, Chaoyu Chen, Bingchang Liu, Cong Liao, Zi Gong, Hang Yu, Jianguo Li, Rui Wang, (参考訳) 本研究では,50以上のモデル,30以上の評価タスク,170以上のデータセット,800以上の関連作業を含む,言語モデルによるコード処理の最近の進歩を体系的にレビューする。 私たちは、コード処理モデルを、GPTファミリで表される一般的な言語モデルと、コード上で特別に事前訓練された特殊なモデルに分解します。 我々は,これらのモデル間の関係や相違について論じ,統計モデルやRNNから事前学習されたトランスフォーマーやLLMへのコードモデリングの歴史的変遷を強調した。 また、AST、CFG、ユニットテストなどのコード固有の機能や、トレーニングコード言語モデルのアプリケーションについても論じます。 私たちはこの調査をGitHubで公開し、https://github.com/codefuse-ai/Awesome-Code-LLM.comで更新しています。

In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, 170+ datasets, and 800 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on GitHub at https://github.com/codefuse-ai/Awesome-Code-LLM.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-16
# Factcheck-Bench: 自動Fact-checkersのための細粒度評価ベンチマーク

Factcheck-Bench: Fine-Grained Evaluation Benchmark for Automatic Fact-checkers ( http://arxiv.org/abs/2311.09000v3 )

ライセンス: Link先を確認
Yuxia Wang, Revanth Gangi Reddy, Zain Muhammad Mujahid, Arnav Arora, Aleksandr Rubashevskii, Jiahui Geng, Osama Mohammed Afzal, Liangming Pan, Nadav Borenstein, Aditya Pillai, Isabelle Augenstein, Iryna Gurevych, Preslav Nakov, (参考訳) 大規模言語モデル(LLM)が現実世界の様々なアプリケーションにまたがって使われるようになると、出力の実際の正確性を検証するメカニズムが要求される。 本研究では, LLM 出力における妥当性と事実整合性に関する詳細なラベルを得るための多段階アノテーションスキームを含む, LLM 生成応答の事実性に注釈を付けるための総合的なエンドツーエンドソリューションを提案する。 さらに,クレーム,文,文書という3段階の粒度でオープンドメインの文書レベルの事実性ベンチマークを構築し,自動事実チェックシステムの評価を容易にすることを目的とする。 予備実験では、FacTool、FactScore、Perplexity.aiが偽のクレームの特定に苦慮していることが示されている。 アノテーションツール、ベンチマーク、コードはhttps://github.com/yuxiaw/Factcheck-GPTで公開されている。

The increased use of large language models (LLMs) across a variety of real-world applications calls for mechanisms to verify the factual accuracy of their outputs. In this work, we present a holistic end-to-end solution for annotating the factuality of LLM-generated responses, which encompasses a multi-stage annotation scheme designed to yield detailed labels concerning the verifiability and factual inconsistencies found in LLM outputs. We further construct an open-domain document-level factuality benchmark in three-level granularity: claim, sentence and document, aiming to facilitate the evaluation of automatic fact-checking systems. Preliminary experiments show that FacTool, FactScore and Perplexity.ai are struggling to identify false claims, with the best F1=0.63 by this annotation solution based on GPT-4. Annotation tool, benchmark and code are available at https://github.com/yuxiaw/Factcheck-GPT.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-16
# Fossil 2.0: 動的モデルの検証と制御のための形式証明書合成

Fossil 2.0: Formal Certificate Synthesis for the Verification and Control of Dynamical Models ( http://arxiv.org/abs/2311.09793v2 )

ライセンス: Link先を確認
Alec Edwards, Andrea Peruffo, Alessandro Abate, (参考訳) 本稿では,通常の微分方程式と差分方程式をモデル化した力学系に対する証明(例えば,リャプノフ,バリア関数)を合成するためのソフトウェアツールFossil 2.0について述べる。 Fossil 2.0は、新しいインターフェース、大幅に拡張された証明書ポートフォリオ、コントローラ合成、拡張性など、最初のリリースから大幅に改善されている。 このツールペーパーの一部として,これらの新機能を紹介する。 Fossilは、その方法の音質を保証する反例誘導誘導合成(CEGIS)ループを実装している。 提案ツールでは,ニューラルネットワークをテンプレートとして,アサーション検証を行うSMTソルバによって正式に証明された候補関数を生成する。 最初のリリースに関する改善には、幅広い証明書、制御法則の合成、離散時間モデルのサポートが含まれる。

This paper presents Fossil 2.0, a new major release of a software tool for the synthesis of certificates (e.g., Lyapunov and barrier functions) for dynamical systems modelled as ordinary differential and difference equations. Fossil 2.0 is much improved from its original release, including new interfaces, a significantly expanded certificate portfolio, controller synthesis and enhanced extensibility. We present these new features as part of this tool paper. Fossil implements a counterexample-guided inductive synthesis (CEGIS) loop ensuring the soundness of the method. Our tool uses neural networks as templates to generate candidate functions, which are then formally proven by an SMT solver acting as an assertion verifier. Improvements with respect to the first release include a wider range of certificates, synthesis of control laws, and support for discrete-time models.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-16
# 言語多様性の急激な衰退--合成テキストを用いた言語モデルの訓練

The Curious Decline of Linguistic Diversity: Training Language Models on Synthetic Text ( http://arxiv.org/abs/2311.09807v2 )

ライセンス: Link先を確認
Yanzhu Guo, Guokan Shang, Michalis Vazirgiannis, Chloé Clavel, (参考訳) 本研究では,前任者が生成する合成データに対する学習言語モデルの影響について検討した。 通常、パフォーマンス指標に重点を置いていることから、このトレーニング方法論が言語多様性に与える影響、特に時間とともに再帰的に実施する場合に着目する。 これを評価するために、語彙、構文、意味の多様性をターゲットとした新しいメトリクスのセットを開発し、それらを英語の様々な自然言語生成タスクにおける再帰的な微調整実験に適用する。 その結果, 連続反復によるモデル出力の多様性が一貫した低下を示し, 特に高レベルの創造性を必要とするタスクにおいて顕著であった。 この傾向は、特に言語豊かさの保存に関して、合成テキスト上での学習言語モデルの潜在的なリスクを浮き彫りにしている。 本研究は,言語モデルの言語能力に対する訓練手法の長期的影響を慎重に検討することの必要性を強調した。

This study investigates the consequences of training language models on synthetic data generated by their predecessors, an increasingly prevalent practice given the prominence of powerful generative models. Diverging from the usual emphasis on performance metrics, we focus on the impact of this training methodology on linguistic diversity, especially when conducted recursively over time. To assess this, we adapt and develop a set of novel metrics targeting lexical, syntactic, and semantic diversity, applying them in recursive finetuning experiments across various natural language generation tasks in English. Our findings reveal a consistent decrease in the diversity of the model outputs through successive iterations, especially remarkable for tasks demanding high levels of creativity. This trend underscores the potential risks of training language models on synthetic text, particularly concerning the preservation of linguistic richness. Our study highlights the need for careful consideration of the long-term effects of such training approaches on the linguistic capabilities of language models.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-16
# Slide-SAM:医療SAMがスライディングウィンドウを発表

Slide-SAM: Medical SAM Meets Sliding Window ( http://arxiv.org/abs/2311.10121v3 )

ライセンス: Link先を確認
Quan Quan, Fenghe Tang, Zikang Xu, Heqin Zhu, S. Kevin Zhou, (参考訳) Segment Anything Model (SAM) は自然画像における2次元画像分割において顕著な成功を収めた。 しかし、医用画像と自然画像の実質的なギャップは、医用画像のセグメンテーションタスクへの直接的な適用を妨げる。 特に3D医療画像では、SAMはスライス間の文脈的関係を学習するのに苦労し、実用性に制限を与えている。 さらに、3D画像に2D SAMを適用するには、時間とラベルを消費するボリューム全体を促す必要がある。 これらの問題を解決するために,隣接する3つのスライスからなるスタックを予測ウィンドウとして扱うSlide-SAMを提案する。 まず3Dボリュームから3つのスライスを取り、中央スライスにポイントまたはバウンディングボックスをプロンプトし、3つのスライスすべてに対してセグメンテーションマスクを予測する。 その後、トップスライスとボトムスライスのマスクを使用して、隣接するスライスのための新しいプロンプトを生成する。 最後に、ボリューム全体を通して予測ウィンドウを前方または後方にスライドさせることで、ステップワイズ予測を実現することができる。 我々のモデルは、複数の公開およびプライベートな医療データセットに基づいて訓練されており、最小限のプロンプトの助けを借りて、広範囲な3次元セグメトネーション実験を通じてその効果を実証している。 コードは \url{https://github.com/Curli-quan/Slide-SAM} で公開されている。

The Segment Anything Model (SAM) has achieved a notable success in two-dimensional image segmentation in natural images. However, the substantial gap between medical and natural images hinders its direct application to medical image segmentation tasks. Particularly in 3D medical images, SAM struggles to learn contextual relationships between slices, limiting its practical applicability. Moreover, applying 2D SAM to 3D images requires prompting the entire volume, which is time- and label-consuming. To address these problems, we propose Slide-SAM, which treats a stack of three adjacent slices as a prediction window. It firstly takes three slices from a 3D volume and point- or bounding box prompts on the central slice as inputs to predict segmentation masks for all three slices. Subsequently, the masks of the top and bottom slices are then used to generate new prompts for adjacent slices. Finally, step-wise prediction can be achieved by sliding the prediction window forward or backward through the entire volume. Our model is trained on multiple public and private medical datasets and demonstrates its effectiveness through extensive 3D segmetnation experiments, with the help of minimal prompts. Code is available at \url{https://github.com/Curli-quan/Slide-SAM}.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-16
# アスペクトベース感覚分析(ABSA)の体系的レビュー : 領域,方法,動向

A Systematic Review of Aspect-based Sentiment Analysis (ABSA): Domains, Methods, and Trends ( http://arxiv.org/abs/2311.10777v4 )

ライセンス: Link先を確認
Yan Cathy Hua, Paul Denny, Katerina Taskova, Jörg Wicker, (参考訳) アスペクトベース感情分析(Aspect-based Sentiment Analysis、ABSA)は、特定のテキストからアスペクトとその関連する意見を識別する、きめ細かいタイプの感情分析である。 デジタル評価されたテキストデータの増加に伴い、ABSAはより詳細で目標とする洞察を掘り下げる能力で人気を博した。 ABSAサブタスクとソリューション方法論に関する多くのレビュー論文があるが、研究アプリケーションドメイン、データセット、ソリューションアプローチに関連する時間的または体系的な問題に関するトレンドにはほとんど焦点を当てていない。 このギャップを埋めるために,本論文は,これらの基本コンポーネント間の傾向と高レベルな関係に着目したABSA研究の体系的文献レビュー(SLR)を提示する。 このレビューは、ABSAにおける最大のSLRの1つであり、私たちの知る限り、ABSA研究のトレンドと相互関係を体系的に検証し、ドメインやソリューションパラダイム、アプローチをまたいだデータ配布について検討した最初の例です。 本サンプルは, 時間制約のない4191個の検索結果から, 革新的な自動フィルタリングプロセスを用いてスクリーニングした519個の一次研究を含む。 我々の定量分析は、ABSA研究の20年近くにおけるトレンドを識別するだけでなく、データセットとドメインの多様性の体系的な欠如と、将来のABSA研究の発展を妨げる可能性のあるドメインミスマッチも明らかにしている。 本稿では,これらの知見とその意義について論じ,今後の研究への提案を行う。

Aspect-based Sentiment Analysis (ABSA) is a fine-grained type of sentiment analysis that identifies aspects and their associated opinions from a given text. With the surge of digital opinionated text data, ABSA gained increasing popularity for its ability to mine more detailed and targeted insights. Many review papers on ABSA subtasks and solution methodologies exist, however, few focus on trends over time or systemic issues relating to research application domains, datasets, and solution approaches. To fill the gap, this paper presents a Systematic Literature Review (SLR) of ABSA studies with a focus on trends and high-level relationships among these fundamental components. This review is one of the largest SLRs on ABSA, and also, to our knowledge, the first that systematically examines the trends and inter-relations among ABSA research and data distribution across domains and solution paradigms and approaches. Our sample includes 519 primary studies screened from 4191 search results without time constraints via an innovative automatic filtering process. Our quantitative analysis not only identifies trends in nearly two decades of ABSA research development but also unveils a systemic lack of dataset and domain diversity as well as domain mismatch that may hinder the development of future ABSA research. We discuss these findings and their implications and propose suggestions for future research.
翻訳日:2024-04-17 23:55:11 公開日:2024-04-16
# 要求を分類する上で、どのAI技術が優れているか? SVM、LSTM、ChatGPTによる実験

Which AI Technique Is Better to Classify Requirements? An Experiment with SVM, LSTM, and ChatGPT ( http://arxiv.org/abs/2311.11547v2 )

ライセンス: Link先を確認
Abdelkarim El-Hajjami, Nicolas Fafin, Camille Salinesi, (参考訳) 近年、ChatGPTのような大規模言語モデルは、様々な自然言語処理タスクにおいて顕著な能力を発揮している。 要求工学におけるそれらの応用、特に要求分類における応用は、ますます関心を集めている。 本稿では,2つのChatGPTモデル,特に gpt-3.5-turbo と gpt-4 を,ゼロショットと少数ショットの両方の要件分類において広範囲に評価した。 この問題は、これらのモデルが従来の分類手法、具体的にはベクターマシンとロング短期記憶をどう比較するかという問題である。 5つの異なるデータセットに基づいて、この結果から、すべてのタイプの要求クラスに最適なテクニックは存在しないことが判明した。 興味深いことに、いくつかのショット設定は、主にゼロショット結果が著しく低いシナリオで有用であることが判明した。

Recently, Large Language Models like ChatGPT have demonstrated remarkable proficiency in various Natural Language Processing tasks. Their application in Requirements Engineering, especially in requirements classification, has gained increasing interest. This paper reports an extensive empirical evaluation of two ChatGPT models, specifically gpt-3.5-turbo, and gpt-4 in both zero-shot and few-shot settings for requirements classification. The question arises as to how these models compare to traditional classification methods, specifically Support Vector Machine and Long Short-Term Memory. Based on five different datasets, our results show that there is no single best technique for all types of requirement classes. Interestingly, the few-shot setting has been found to be beneficial primarily in scenarios where zero-shot results are significantly low.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# グラフニューラルネットワークを用いたインテリジェントメッシュ平滑化手法の提案

Proposing an intelligent mesh smoothing method with graph neural networks ( http://arxiv.org/abs/2311.12815v2 )

ライセンス: Link先を確認
Zhichao Wang, Xinhai Chen, Junjun Yan, Jie Liu, (参考訳) CFDでは、メッシュの平滑化法はメッシュの品質を改良し、高精度な数値シミュレーションを実現するために一般的に用いられている。 具体的には、最適化ベースの平滑化は高品質なメッシュの平滑化に使用されるが、計算オーバーヘッドが大きい。 Pioneerは、教師付き学習を採用して、高品質なメッシュからスムーズな方法を学ぶことで、スムーズな効率を改善する。 しかし、メッシュノードを様々な程度に滑らかにすることは困難であり、ノードの入力シーケンス問題に対処するためにはデータ拡張が必要である。 さらに,ラベル付き高品質メッシュは,提案手法の適用性をさらに制限する。 本稿では,インテリジェントメッシュ平滑化のための軽量ニューラルネットワークモデルであるGMSNetを提案する。 GMSNetはグラフニューラルネットワークを採用して、ノードの隣人の特徴を抽出し、最適なノード位置を出力する。 また, 平滑化時にGMSNetが負の体積要素を発生させないよう耐故障機構を導入する。 軽量モデルにより、GMSNetは、様々な度合いでメッシュノードを効果的に滑らかにすることができ、入力データの順序に影響を受けないままである。 新たな損失関数MetricLossも、トレーニング中に安定かつ迅速な収束を提供する高品質メッシュの必要性を排除するために開発された。 GMSNetと2次元トライアングルメッシュのメッシュ平滑化法を比較した。 実験結果から, GMSNetは前モデルの5%モデルパラメータで優れたメッシュ平滑化性能を達成し, 最適化ベース平滑化の13.56倍の高速化を実現した。

In CFD, mesh smoothing methods are commonly utilized to refine the mesh quality to achieve high-precision numerical simulations. Specifically, optimization-based smoothing is used for high-quality mesh smoothing, but it incurs significant computational overhead. Pioneer works improve its smoothing efficiency by adopting supervised learning to learn smoothing methods from high-quality meshes. However, they pose difficulty in smoothing the mesh nodes with varying degrees and also need data augmentation to address the node input sequence problem. Additionally, the required labeled high-quality meshes further limit the applicability of the proposed method. In this paper, we present GMSNet, a lightweight neural network model for intelligent mesh smoothing. GMSNet adopts graph neural networks to extract features of the node's neighbors and output the optimal node position. During smoothing, we also introduce a fault-tolerance mechanism to prevent GMSNet from generating negative volume elements. With a lightweight model, GMSNet can effectively smoothing mesh nodes with varying degrees and remain unaffected by the order of input data. A novel loss function, MetricLoss, is also developed to eliminate the need for high-quality meshes, which provides a stable and rapid convergence during training. We compare GMSNet with commonly used mesh smoothing methods on two-dimensional triangle meshes. The experimental results show that GMSNet achieves outstanding mesh smoothing performances with 5% model parameters of the previous model, and attains 13.56 times faster than optimization-based smoothing.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# MetaCloak: メタラーニングによる非許可の主題駆動型テキスト-画像拡散型合成の防止

MetaCloak: Preventing Unauthorized Subject-driven Text-to-image Diffusion-based Synthesis via Meta-learning ( http://arxiv.org/abs/2311.13127v4 )

ライセンス: Link先を確認
Yixin Liu, Chenrui Fan, Yutong Dai, Xun Chen, Pan Zhou, Lichao Sun, (参考訳) テキストから画像への拡散モデルにより、スキャンされた参照写真からパーソナライズされた画像をシームレスに生成できる。 しかし、これらのツールは間違った手で、個人を危険にさらす、誤解を招く、有害なコンテンツを作ることができる。 この問題に対処するため、既存の毒素ベースのアプローチは、悪意のある使用からユーザイメージを“学習不能”にするために、知覚不能な方法でユーザイメージにアプローチする。 これらの防御アプローチの2つの限界を特定します。 一 難易度最適化の解決のための手作りのヒューリスティックによる準最適 二 ガウスフィルタのような単純なデータ変換に対する堅牢性の欠如。 これらの課題を解決するためにMetaCloakを提案する。MetaCloakは、トランスフォーメーションサンプリングプロセスを追加し、トランスフォーメーション可能で堅牢な摂動を実現するメタラーニングフレームワークを用いて、バイレベル中毒の問題を解決する。 具体的には、代理拡散モデルのプールを用いて、伝達性およびモデルに依存しない摂動を創出する。 さらに、新たな変換プロセスを導入することで、パーソナライズされた世代において、変換ロバストなセマンティックな歪みと劣化を引き起こすのに十分な、単純なデノジングエラー最大化損失を設計する。 VGGFace2とCelebA-HQデータセットの大規模な実験は、MetaCloakが既存のアプローチより優れていることを示している。 特にMetaCloakは、Replicateのようなオンライントレーニングサービスをブラックボックス方式でうまく騙し、現実世界のシナリオにおけるMetaCloakの有効性を実証することができる。 私たちのコードはhttps://github.com/liuyixin-louis/MetaCloak.comから入手可能です。

Text-to-image diffusion models allow seamless generation of personalized images from scant reference photos. Yet, these tools, in the wrong hands, can fabricate misleading or harmful content, endangering individuals. To address this problem, existing poisoning-based approaches perturb user images in an imperceptible way to render them "unlearnable" from malicious uses. We identify two limitations of these defending approaches: i) sub-optimal due to the hand-crafted heuristics for solving the intractable bilevel optimization and ii) lack of robustness against simple data transformations like Gaussian filtering. To solve these challenges, we propose MetaCloak, which solves the bi-level poisoning problem with a meta-learning framework with an additional transformation sampling process to craft transferable and robust perturbation. Specifically, we employ a pool of surrogate diffusion models to craft transferable and model-agnostic perturbation. Furthermore, by incorporating an additional transformation process, we design a simple denoising-error maximization loss that is sufficient for causing transformation-robust semantic distortion and degradation in a personalized generation. Extensive experiments on the VGGFace2 and CelebA-HQ datasets show that MetaCloak outperforms existing approaches. Notably, MetaCloak can successfully fool online training services like Replicate, in a black-box manner, demonstrating the effectiveness of MetaCloak in real-world scenarios. Our code is available at https://github.com/liuyixin-louis/MetaCloak.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# 遅延拡散逆解法のためのテキストによる正規化

Regularization by Texts for Latent Diffusion Inverse Solvers ( http://arxiv.org/abs/2311.15658v2 )

ライセンス: Link先を確認
Jeongsol Kim, Geon Yeong Park, Hyungjin Chung, Jong Chul Ye, (参考訳) 近年の拡散モデルの出現は、これらのモデルを効果的な生成前駆体として活用することで、逆問題の解決に大きな進歩をもたらした。 しかしながら、そのような問題の本質が不明確で、しばしば測定や本質的なシステム対称性に固有の曖昧さのために、課題が残されている。 そこで本研究では,人間の視覚的あいまいさを知覚バイアスによって解決する能力からインスピレーションを得て,テキストによる正規化による新しい潜伏拡散逆解法(TReg)を提案する。 具体的には、TRegは、逆拡散サンプリング中に解の先入観をテキストで記述し、適応否定のためのヌルテキスト最適化によって動的に記述を補強する。 包括的実験の結果,TRegは逆問題における曖昧さを軽減し,その有効性と精度を高めることができた。

The recent advent of diffusion models has led to significant progress in solving inverse problems, leveraging these models as effective generative priors. Nonetheless, there remain challenges related to the ill-posed nature of such problems, often due to inherent ambiguities in measurements or intrinsic system symmetries. To address this, drawing inspiration from the human ability to resolve visual ambiguities through perceptual biases, here we introduce a novel latent diffusion inverse solver by regularization by texts (TReg). Specifically, TReg applies the textual description of the preconception of the solution during the reverse diffusion sampling, of which the description is dynamically reinforced through null-text optimization for adaptive negation. Our comprehensive experimental results demonstrate that TReg successfully mitigates ambiguity in the inverse problems, enhancing their effectiveness and accuracy.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# VehicleGAN: 車両再識別のためのPair-flexible Poseガイド画像合成

VehicleGAN: Pair-flexible Pose Guided Image Synthesis for Vehicle Re-identification ( http://arxiv.org/abs/2311.16278v2 )

ライセンス: Link先を確認
Baolu Li, Ping Liu, Lan Fu, Jinlong Li, Jianwu Fang, Zhigang Xu, Hongkai Yu, (参考訳) 車両再識別(Re-ID)は、過去10年間に広く研究されてきたが、様々なポーズの車両の特徴部分空間において、異なるカメラビュー角が混同され、現実世界の車両再識別モデルでは依然として困難である。 そこで本研究では,多種多様なポーズの車両を統一されたターゲットポーズに投影し,特徴の識別を高めることを目的として,多数の車両イメージを対象ポーズに合成することを提案する。 異なる交通監視カメラにおける同一車両のペア化データが現実世界では利用できない可能性があることを考慮し, 幾何学的3次元モデルの知識を必要とせず, 教師なしと教師なしの両方で機能する, 車両用リレーIDのためのPair-flexible Pose Guided Image Synthesis法を提案する。 実データと合成データの特徴分布の違いから,従来の計量学習に基づくRe-IDモデルをデータレベルでの融合(すなわちデータ拡張)で訓練することは不十分であり,実データと合成データの両方から有効な特徴レベルの融合を通した新しいジョイントメトリックラーニング(JML)を提案する。 パブリックなVeRi-776とVaviIDデータセットの総合的な実験結果から,提案したVaviGANとJMLの精度と有効性が確認された。

Vehicle Re-identification (Re-ID) has been broadly studied in the last decade; however, the different camera view angle leading to confused discrimination in the feature subspace for the vehicles of various poses, is still challenging for the Vehicle Re-ID models in the real world. To promote the Vehicle Re-ID models, this paper proposes to synthesize a large number of vehicle images in the target pose, whose idea is to project the vehicles of diverse poses into the unified target pose so as to enhance feature discrimination. Considering that the paired data of the same vehicles in different traffic surveillance cameras might be not available in the real world, we propose the first Pair-flexible Pose Guided Image Synthesis method for Vehicle Re-ID, named as VehicleGAN in this paper, which works for both supervised and unsupervised settings without the knowledge of geometric 3D models. Because of the feature distribution difference between real and synthetic data, simply training a traditional metric learning based Re-ID model with data-level fusion (i.e., data augmentation) is not satisfactory, therefore we propose a new Joint Metric Learning (JML) via effective feature-level fusion from both real and synthetic data. Intensive experimental results on the public VeRi-776 and VehicleID datasets prove the accuracy and effectiveness of our proposed VehicleGAN and JML.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# 平易なモデルにおける不可避な暗号を目指して

Towards Unclonable Cryptography in the Plain Model ( http://arxiv.org/abs/2311.16663v3 )

ライセンス: Link先を確認
Céline Chevalier, Paul Hermouet, Quoc-Huy Vu, (参考訳) 量子力学の非閉鎖原理を利用することで、制限不能暗号は古典的に不可能な新しい暗号プロトコルを実現することができる。 制限不能暗号の2つの顕著な例は、量子コピー保護と制限不能暗号である。 ほとんどの既知の構成は(平らなモデルとは対照的に)量子ランダムオラクルモデルに依存している。 近年、多くの注目を集めているにもかかわらず、2つの重要なオープンな疑問が残る: 平モデルにおけるポイント関数のコピープロテクション。 これらのプロトコルの中核となる要素は、いわゆるモノガミー・オブ・エンタングルメント(MoE)特性である。 このようなゲームは、特定の文脈における絡み合いを共有する複数の非コミュニケーション当事者の結果の間の相関関係を定量化することができる。 具体的には、第1のプレイヤーに量子状態の分割と共有を依頼され、同時に質問をされ、正しい答えを出力する3人のプレイヤー間のゲームを定義する。 本研究では、Cladangelo, Liu, Liu, Zhandry (Crypto'21) とCulf and Vidick (Quantum'22) の以前の研究を頼りに、上述の目標に向かって進むことができる部分空間コセット状態に対する新たなMoE特性を確立する。 しかし、それ自身では不十分であり、まずは、(おそらく最も自然なものを含む)異なるチャレンジ分布を持つ点関数のコピー保護が存在することを示す2つの予想を示し、そして、制限不能で識別不能なセキュリティを持つ非拘束的暗号化は、プレーンモデルに存在することを示す。 私たちは、新しいMoEは独立した関心事であり、他のアプリケーションにも役立つと信じています。

By leveraging the no-cloning principle of quantum mechanics, unclonable cryptography enables us to achieve novel cryptographic protocols that are otherwise impossible classically. Two most notable examples of unclonable cryptography are quantum copy-protection and unclonable encryption. Most known constructions rely on the quantum random oracle model (as opposed to the plain model). Despite receiving a lot of attention in recent years, two important open questions still remain: copy-protection for point functions in the plain model, which is usually considered as feasibility demonstration, and unclonable encryption with unclonable indistinguishability security in the plain model. A core ingredient of these protocols is the so-called monogamy-of-entanglement (MoE) property. Such games allow quantifying the correlations between the outcomes of multiple non-communicating parties sharing entanglement in a particular context. Specifically, we define the games between a challenger and three players in which the first player is asked to split and share a quantum state between the two others, who are then simultaneously asked a question and need to output the correct answer. In this work, by relying on previous works of Coladangelo, Liu, Liu, and Zhandry (Crypto'21) and Culf and Vidick (Quantum'22), we establish a new MoE property for subspace coset states, which allows us to progress towards the aforementioned goals. However, it is not sufficient on its own, and we present two conjectures that would allow first to show that copy-protection of point functions exists in the plain model, with different challenge distributions (including arguably the most natural ones), and then that unclonable encryption with unclonable indistinguishability security exists in the plain model. We believe that our new MoE to be of independent interest, and it could be useful in other applications as well.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# 雑音量子コンピュータにおける量子重力モデル

A model of quantum gravity on a noisy quantum computer ( http://arxiv.org/abs/2311.17991v3 )

ライセンス: Link先を確認
Muhammad Asaduzzaman, Raghav G. Jha, Bharath Sambasivam, (参考訳) 我々は、IBMの超伝導量子ビット量子コンピュータ上で、量子重力の重要な玩具モデルであるSYKモデルを研究する。 グラフカラー化アルゴリズムを用いて、量子化ハミルトニアンにおける項の可換クラスタ数を最小化することにより、$N$Majorana fermionsの1次積公式を用いて時間進化のゲート複雑性が$\mathcal{O}(N^5 J^{2}t^2/\epsilon)$であるのに対して、$J$は次元結合パラメータであり、$t$は進化時間であり、$\epsilon$は所望の精度である。 この改良により、最大2量子ビット回路深さ343のN=6, 8$の時間発展を行う。 我々は、ノイズの多いハードウェア上で異なる誤差軽減方式を実行し、古典コンピュータやノイズレスシミュレータ上での正確な対角化結果とよく一致している。 特に、量子系のカオスの性質を定量化するための標準観測可能な、時間$t$と時間外順序相関器(OTOC)の後の戻り確率を計算する。

We study the SYK model -- an important toy model for quantum gravity on IBM's superconducting qubit quantum computers. By using a graph-coloring algorithm to minimize the number of commuting clusters of terms in the qubitized Hamiltonian, we find the gate complexity of the time evolution using the first-order product formula for $N$ Majorana fermions is $\mathcal{O}(N^5 J^{2}t^2/\epsilon)$ where $J$ is the dimensionful coupling parameter, $t$ is the evolution time, and $\epsilon$ is the desired precision. With this improved resource requirement, we perform the time evolution for $N=6, 8$ with maximum two-qubit circuit depth of 343. We perform different error mitigation schemes on the noisy hardware results and find good agreement with the exact diagonalization results on classical computers and noiseless simulators. In particular, we compute return probability after time $t$ and out-of-time order correlators (OTOC) which is a standard observable of quantifying the chaotic nature of quantum systems.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# CAMEL:周波数可変量子チップのための物理的にインスパイアされたクロストーク対応マッピングとgatEスケジューリング

CAMEL: Physically Inspired Crosstalk-Aware Mapping and gatE Scheduling for Frequency-Tunable Quantum Chips ( http://arxiv.org/abs/2311.18160v2 )

ライセンス: Link先を確認
Bin-han Lu, Peng Wang, Zhao-yun Chen, Huan-yu Liu, Tai-ping Sun, Peng Duan, Yu-chun Wu, Guo-ping Guo, (参考訳) Crosstalkは、量子コンピューティングにおける大きな障害である。 量子ゲートが並列に実行されるとき、量子ビット周波数の共鳴は残余結合につながり、忠実さを損なう。 既存のクロストークソリューションは、周波数可変量子チップにおける2量子ビットゲートの並列処理において、クロストークとデコヒーレンスを緩和するのに困難である。 周波数可変量子チップの物理的特性に着想を得て,これらの課題に対処するためにクロストーク・アウェアマッピングとgatE Scheduling (CAMEL) アプローチを導入する。 CAMELは、平行2ビットゲートのクロストークを緩和し、デコヒーレンスを抑制することを目的としている。 CAMELアプローチは、調整可能なカプラの特性を利用して、クロストーク緩和のためのパルス補償手法を統合する。 さらに,2つのステップを含むコンパイルフレームワークを提案する。 まず,クロストークとデコヒーレンスの両方を考慮したqubitマッピング手法を提案する。 次に,クロストークのない最大の並列ゲートセットの実行を優先順位付けして,量子回路の実行時間を短縮するゲートタイミングスケジューリング手法を提案する。 CAMELのクロストーク軽減効果をクロストーク非依存法と比較した。 さらに、クロストークゲートを直列化するアプローチとは対照的に、CAMELはデコヒーレンスをうまく抑制する。 最後に、CAMELは低複雑さハードウェアにおける動的周波数認識よりも優れた性能を示す。

Crosstalk represents a formidable obstacle in quantum computing. When quantum gates are executed parallelly, the resonance of qubit frequencies can lead to residual coupling, compromising the fidelity. Existing crosstalk solutions encounter difficulties in mitigating crosstalk and decoherence when dealing with parallel two-qubit gates in frequency-tunable quantum chips. Inspired by the physical properties of frequency-tunable quantum chips, we introduce a Crosstalk-Aware Mapping and gatE Scheduling (CAMEL) approach to address these challenges. CAMEL aims to mitigate crosstalk of parallel two-qubit gates and suppress decoherence. Utilizing the features of the tunable coupler, the CAMEL approach integrates a pulse compensation method for crosstalk mitigation. Furthermore, we present a compilation framework, including two steps. Firstly, we devise a qubit mapping approach that accounts for both crosstalk and decoherence. Secondly, we introduce a gate timing scheduling approach capable of prioritizing the execution of the largest set of crosstalk-free parallel gates to shorten quantum circuit execution times. Evaluation results demonstrate the effectiveness of CAMEL in mitigating crosstalk compared to crosstalk-agnostic methods. Furthermore, in contrast to approaches serializing crosstalk gates, CAMEL successfully suppresses decoherence. Finally, CAMEL exhibits better performance over dynamic-frequency awareness in low-complexity hardware.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM

SplaTAM: Splat, Track & Map 3D Gaussians for Dense RGB-D SLAM ( http://arxiv.org/abs/2312.02126v3 )

ライセンス: Link先を確認
Nikhil Keetha, Jay Karhade, Krishna Murthy Jatavallabhula, Gengshan Yang, Sebastian Scherer, Deva Ramanan, Jonathon Luiten, (参考訳) ロボット工学や拡張現実の応用には、高密度同時位置決めとマッピング(SLAM)が不可欠である。 しかしながら、現在の手法は、しばしば、シーンを表す非体積的あるいは暗黙的な方法によって妨げられる。 この研究はSplaTAMを導入し、これは初めて、露骨な体積表現(つまり3Dガウス)を活用して、既存の手法の能力を超越した単一のRGB-Dカメラからの高忠実度再構成を可能にするアプローチである。 SplaTAMは、基礎となるガウス表現に合わせて、単純なオンライントラッキングとマッピングシステムを採用している。 シルエットマスクを使用して、シーン密度の存在を優雅に捉えている。 この組み合わせにより、高速レンダリングや高密度な最適化、領域が以前にマップされているかどうかの迅速な決定、よりガウス的な追加による構造化された写像拡張など、事前表現よりもいくつかの利点が期待できる。 広汎な実験により、SplaTAMはカメラポーズ推定、マップ構築、既存手法に対する新規ビュー合成において最大2倍の優れた性能を達成し、より没入性の高い高忠実SLAMアプリケーションへの道を開いた。

Dense simultaneous localization and mapping (SLAM) is crucial for robotics and augmented reality applications. However, current methods are often hampered by the non-volumetric or implicit way they represent a scene. This work introduces SplaTAM, an approach that, for the first time, leverages explicit volumetric representations, i.e., 3D Gaussians, to enable high-fidelity reconstruction from a single unposed RGB-D camera, surpassing the capabilities of existing methods. SplaTAM employs a simple online tracking and mapping system tailored to the underlying Gaussian representation. It utilizes a silhouette mask to elegantly capture the presence of scene density. This combination enables several benefits over prior representations, including fast rendering and dense optimization, quickly determining if areas have been previously mapped, and structured map expansion by adding more Gaussians. Extensive experiments show that SplaTAM achieves up to 2x superior performance in camera pose estimation, map construction, and novel-view synthesis over existing methods, paving the way for more immersive high-fidelity SLAM applications.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# GPS-Gaussian:リアルタイム新規ビュー合成のための一般化可能な画素ワイド3次元ガウススプラッティング

GPS-Gaussian: Generalizable Pixel-wise 3D Gaussian Splatting for Real-time Human Novel View Synthesis ( http://arxiv.org/abs/2312.02155v3 )

ライセンス: Link先を確認
Shunyuan Zheng, Boyao Zhou, Ruizhi Shao, Boning Liu, Shengping Zhang, Liqiang Nie, Yebin Liu, (参考訳) 我々は、文字の新たなビューをリアルタイムに合成するための新しいアプローチ、GPS-Gaussianを提案する。 提案手法は,スパースビューカメラ設定下での2K解像度のレンダリングを可能にする。 オブジェクトごとの最適化を必要とする元のガウス的スプティングやニューラル暗黙的レンダリングとは異なり、ソースビューに定義されたガウス的パラメータマップを導入し、直接ガウス的スプティング特性を、微調整や最適化なしに即興的なビュー合成のために導入する。 この目的のために,我々は多量の人間のスキャンデータに基づいてガウスパラメータ回帰モジュールを訓練し,深度推定モジュールと共同で2次元パラメータマップを3次元空間に引き上げる。 提案するフレームワークは完全に差別化可能であり,提案手法はレンダリング速度を超越しながら最先端の手法より優れていることを示す。

We present a new approach, termed GPS-Gaussian, for synthesizing novel views of a character in a real-time manner. The proposed method enables 2K-resolution rendering under a sparse-view camera setting. Unlike the original Gaussian Splatting or neural implicit rendering methods that necessitate per-subject optimizations, we introduce Gaussian parameter maps defined on the source views and regress directly Gaussian Splatting properties for instant novel view synthesis without any fine-tuning or optimization. To this end, we train our Gaussian parameter regression module on a large amount of human scan data, jointly with a depth estimation module to lift 2D parameter maps to 3D space. The proposed framework is fully differentiable and experiments on several datasets demonstrate that our method outperforms state-of-the-art methods while achieving an exceeding rendering speed.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# Part Distill: 3D Shape Part Segmentation by Vision-Language Model Distillation

PartDistill: 3D Shape Part Segmentation by Vision-Language Model Distillation ( http://arxiv.org/abs/2312.04016v2 )

ライセンス: Link先を確認
Ardian Umam, Cheng-Kun Yang, Min-Hung Chen, Jen-Hui Chuang, Yen-Yu Lin, (参考訳) 本稿では、視覚言語モデル(VLM)から2次元知識を伝達し、3次元形状分割を容易にするクロスモーダル蒸留フレームワークPartDistillを提案する。 PartDistillは2次元投影における見えない領域や検出されていない領域における3Dセグメンテーションの欠如、VLMによる矛盾した2D予測、異なる3次元形状にまたがる知識の欠如、という3つの課題に対処する。 PartDistillは、VLMを用いて2次元予測を行う教師ネットワークと、複数の3次元形状から幾何学的特徴を抽出して3次元分割を行う学生ネットワークで構成されている。 前者の前方が学生ネットワークに2D予測を蒸留し、後者が2D予測の品質を改善し、最終の3Dセグメンテーションを強化する。 さらに、PartDistillは、蒸留する知識ソースを生成するために、無駄な3D形状の作成を容易にする生成モデルを利用することができる。 広範な実験を通じて、PartDistillは、広く使用されているShapeNetPartとPartNetEデータセットに対して、それぞれ15%以上のmIoUスコアと12%以上のマージンを持つ既存の方法を強化した。 この作業のコードはhttps://github.com/ardianumam/PartDistill.comで公開されている。

This paper proposes a cross-modal distillation framework, PartDistill, which transfers 2D knowledge from vision-language models (VLMs) to facilitate 3D shape part segmentation. PartDistill addresses three major challenges in this task: the lack of 3D segmentation in invisible or undetected regions in the 2D projections, inconsistent 2D predictions by VLMs, and the lack of knowledge accumulation across different 3D shapes. PartDistill consists of a teacher network that uses a VLM to make 2D predictions and a student network that learns from the 2D predictions while extracting geometrical features from multiple 3D shapes to carry out 3D part segmentation. A bi-directional distillation, including forward and backward distillations, is carried out within the framework, where the former forward distills the 2D predictions to the student network, and the latter improves the quality of the 2D predictions, which subsequently enhances the final 3D segmentation. Moreover, PartDistill can exploit generative models that facilitate effortless 3D shape creation for generating knowledge sources to be distilled. Through extensive experiments, PartDistill boosts the existing methods with substantial margins on widely used ShapeNetPart and PartNetE datasets, by more than 15% and 12% higher mIoU scores, respectively. The code for this work is available at https://github.com/ardianumam/PartDistill.
翻訳日:2024-04-17 23:45:27 公開日:2024-04-16
# 文法推論を用いた確率的直接追従プロセス探索

Stochastic Directly-Follows Process Discovery Using Grammatical Inference ( http://arxiv.org/abs/2312.05433v2 )

ライセンス: Link先を確認
Hanan Alkhammash, Artem Polyvyanyy, Alistair Moffat, (参考訳) プロセスの実行によって生成されるトレースのコレクションから始めると、プロセス発見はプロセスを記述するシンプルなモデルを構築するタスクである。 プロセス発見の課題は、プロセスが未知であり、入力トレースがプロセス実行の肯定的な例を構成するが、否定的な例は存在しないことである。 多くの商用ツールがDirectly-Follows Graphを発見し、ノードはプロセスの観測可能なアクションを表現する。 本稿では,入力トレースに対する文法的推論を基礎とした直接追従グラフの探索手法を提案する。 プロセスを正確に記述した小さなグラフの発見を促進するために、興味深いモデルの発見につながる領域への推論パラメータの収束を支援する遺伝的アルゴリズムを設計し、評価する。 実世界のデータセットに対する実験により、我々の新しいアプローチは入力トレースとその周波数を最先端技術よりも正確に表現できる小さなモデルを構築することができることを確認した。 符号化されたトレースの周波数に対する推論は、我々が提案するアクショングラフの確率的意味論により可能となり、これが初めて、アクショントレースの確率的言語を記述するモデルとして解釈される。

Starting with a collection of traces generated by process executions, process discovery is the task of constructing a simple model that describes the process, where simplicity is often measured in terms of model size. The challenge of process discovery is that the process of interest is unknown, and that while the input traces constitute positive examples of process executions, no negative examples are available. Many commercial tools discover Directly-Follows Graphs, in which nodes represent the observable actions of the process, and directed arcs indicate execution order possibilities over the actions. We propose a new approach for discovering sound Directly-Follows Graphs that is grounded in grammatical inference over the input traces. To promote the discovery of small graphs that also describe the process accurately we design and evaluate a genetic algorithm that supports the convergence of the inference parameters to the areas that lead to the discovery of interesting models. Experiments over real-world datasets confirm that our new approach can construct smaller models that represent the input traces and their frequencies more accurately than the state-of-the-art technique. Reasoning over the frequencies of encoded traces also becomes possible, due to the stochastic semantics of the action graphs we propose, which, for the first time, are interpreted as models that describe the stochastic languages of action traces.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# 人間の3次元姿勢推定のロバスト性向上--騒音入力からのベンチマークと学習

Improving the Robustness of 3D Human Pose Estimation: A Benchmark and Learning from Noisy Input ( http://arxiv.org/abs/2312.06797v2 )

ライセンス: Link先を確認
Trung-Hieu Hoang, Mona Zehni, Huy Phan, Duc Minh Vo, Minh N. Do, (参考訳) 現在の3Dポーズ推定技術の有望な性能にもかかわらず、挑戦する映像の理解と一般化は未解決の問題である。 本研究では,2次元から3次元のポーズリフタのロバスト性に着目した。 この目的のために,Human3.6M-CとHumanEva-I-Cという2つのベンチマークデータセットを開発し,映像ベースの3Dポーズ・リフティング・リフティングの強靭性について検討した。 現状の3Dポーズリフターの汚職の存在下での一般化は不十分であり,この問題に対処するための2つの手法が確立されている。 まず, 時間付加型ガウスノイズ(TAGN)を, 単純かつ効果的な2次元入力ポーズデータ拡張として導入する。 さらに,2次元ポーズ検出器によって出力される信頼度スコアを組み込むために,信頼度を考慮した畳み込み(CA-Conv)ブロックを設計する。 腐敗したビデオで徹底的にテストされ、提案された戦略は一貫して3Dポーズリフトの堅牢性を高め、将来の研究の新たなベースラインとして機能する。

Despite the promising performance of current 3D human pose estimation techniques, understanding and enhancing their generalization on challenging in-the-wild videos remain an open problem. In this work, we focus on the robustness of 2D-to-3D pose lifters. To this end, we develop two benchmark datasets, namely Human3.6M-C and HumanEva-I-C, to examine the robustness of video-based 3D pose lifters to a wide range of common video corruptions including temporary occlusion, motion blur, and pixel-level noise. We observe the poor generalization of state-of-the-art 3D pose lifters in the presence of corruption and establish two techniques to tackle this issue. First, we introduce Temporal Additive Gaussian Noise (TAGN) as a simple yet effective 2D input pose data augmentation. Additionally, to incorporate the confidence scores output by the 2D pose detectors, we design a confidence-aware convolution (CA-Conv) block. Extensively tested on corrupted videos, the proposed strategies consistently boost the robustness of 3D pose lifters and serve as new baselines for future research.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# オープンな3Dゼロショット学習 - ベンチマークと課題

Open-Pose 3D Zero-Shot Learning: Benchmark and Challenges ( http://arxiv.org/abs/2312.07039v2 )

ライセンス: Link先を確認
Weiguang Zhao, Guanyu Yang, Rui Zhang, Chenru Jiang, Chaolong Yang, Yuyao Yan, Amir Hussain, Kaizhu Huang, (参考訳) 爆発的な3Dデータ成長により、ゼロショット学習を利用してデータラベリングを容易にする緊急性が明らかになる。 近年,コントラスト言語画像事前学習(CLIP)のような言語や言語イメージの事前学習モデルを3Dビジョンに転送する手法が,ゼロショット分類タスクにおいて大きな進歩を遂げている。 これらの手法は主にアライメントされたポーズを持つ3Dオブジェクトの分類に焦点を当てるが、そのような設定はむしろ制限的であり、転倒した椅子や横たわるテディベアのような現実世界のシナリオでよく見られるオープンなポーズを持つ3Dオブジェクトの認識を見落としている。 この目的のために,オープン・プレイス3Dゼロショット分類という,より現実的で困難なシナリオを提案する。 まず、3Dゼロショット分類に関する現在の研究を再考し、オープンな設定に特化して設計された2つのベンチマークデータセットを提案する。 提案したオープン・プレイス・ベンチマークにおいて,最も一般的な手法の多くを実証的に検証する。 我々の調査では、現在の3Dゼロショット分類モデルのほとんどは性能が悪く、新しい方向へのかなりの探索の余地があることが判明した。 さらに,これらのオープンな3Dオブジェクトを分類するために,1つの理想的な角度を自動的に最適化する反復的な角度補正機構を備えた簡潔なパイプラインについて検討する。 特に、既存のCLIPベースの手法に限らず、バリデーションをより魅力的にするため、拡散モデルに基づく知識伝達の探索も先駆的です。 提案手法は3次元ゼロショット分類をオープンにするための新しいベンチマークとして機能するが、このシナリオの複雑さと課題について検討する。 コードはhttps://github.com/weiguangzhao/Diff-OP3D.comで公開されている。

With the explosive 3D data growth, the urgency of utilizing zero-shot learning to facilitate data labeling becomes evident. Recently, methods transferring language or language-image pre-training models like Contrastive Language-Image Pre-training (CLIP) to 3D vision have made significant progress in the 3D zero-shot classification task. These methods primarily focus on 3D object classification with an aligned pose; such a setting is, however, rather restrictive, which overlooks the recognition of 3D objects with open poses typically encountered in real-world scenarios, such as an overturned chair or a lying teddy bear. To this end, we propose a more realistic and challenging scenario named open-pose 3D zero-shot classification, focusing on the recognition of 3D objects regardless of their orientation. First, we revisit the current research on 3D zero-shot classification, and propose two benchmark datasets specifically designed for the open-pose setting. We empirically validate many of the most popular methods in the proposed open-pose benchmark. Our investigations reveal that most current 3D zero-shot classification models suffer from poor performance, indicating a substantial exploration room towards the new direction. Furthermore, we study a concise pipeline with an iterative angle refinement mechanism that automatically optimizes one ideal angle to classify these open-pose 3D objects. In particular, to make validation more compelling and not just limited to existing CLIP-based methods, we also pioneer the exploration of knowledge transfer based on Diffusion models. While the proposed solutions can serve as a new benchmark for open-pose 3D zero-shot classification, we discuss the complexities and challenges of this scenario that remain for further research development. The code is available publicly at https://github.com/weiguangzhao/Diff-OP3D.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# 非線形力学のガウス過程学習

Gaussian process learning of nonlinear dynamics ( http://arxiv.org/abs/2312.12193v2 )

ライセンス: Link先を確認
Dongwei Ye, Mengwu Guo, (参考訳) 科学機械学習における重要な課題の1つは、時系列データから基礎となる力学系を表現することである。 このような動的学習のための多くの方法は、直接利用できない状態データの微分を明示的に要求し、伝統的に有限差分で近似することができる。 しかし、時間微分の離散近似は、状態データがノイズによって不足したり、あるいは破損したりする場合に低い推定結果をもたらす可能性があるため、学習された力学モデルの予測性を損なう。 この技術的ハードルを克服するために、モデルパラメータのキャラクタリゼーションのベイズ推定を通じて非線形力学を学習する新しい手法を提案する。 この方法は状態のガウス過程表現を利用し、状態データとそれらの導関数との相関を利用して可能性関数を構築するが、時間微分の明示的な評価は避ける。 ベイズスキームにより、モデルパラメータの確率的推定は後部分布によって与えられ、ノイズの多い状態データや学習過程からの不確実性に対して定量化が促進される。 具体的には、アフィンパラメトリゼーションによる同定と推定、事前知識のない非線形パラメトリック近似、与えられた力学系に対する一般パラメータ推定など、力学系に対する提案手法の適用性について論じる。

One of the pivotal tasks in scientific machine learning is to represent underlying dynamical systems from time series data. Many methods for such dynamics learning explicitly require the derivatives of state data, which are not directly available and can be approximated conventionally by finite differences. However, the discrete approximations of time derivatives may result in poor estimations when state data are scarce and/or corrupted by noise, thus compromising the predictiveness of the learned dynamical models. To overcome this technical hurdle, we propose a new method that learns nonlinear dynamics through a Bayesian inference of characterizing model parameters. This method leverages a Gaussian process representation of states, and constructs a likelihood function using the correlation between state data and their derivatives, yet prevents explicit evaluations of time derivatives. Through a Bayesian scheme, a probabilistic estimate of the model parameters is given by the posterior distribution, and thus a quantification is facilitated for uncertainties from noisy state data and the learning process. Specifically, we will discuss the applicability of the proposed method to several typical scenarios for dynamical systems: identification and estimation with an affine parametrization, nonlinear parametric approximation without prior knowledge, and general parameter estimation for a given dynamical system.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# 非接触呼吸パターン分類のための1D-CNNの進化的最適化

Evolutionary Optimization of 1D-CNN for Non-contact Respiration Pattern Classification ( http://arxiv.org/abs/2312.13035v2 )

ライセンス: Link先を確認
Md Zobaer Islam, Sabit Ekin, John F. O'Hara, Gary Yen, (参考訳) 本研究では,時系列呼吸データ分類における深層学習に基づくアプローチを提案する。 本データセットは、非接触非コヒーレント光波センシング(LWS)技術により得られる、定期的な呼吸パターンおよび様々な形態の異常呼吸を含む。 データの1次元(1D)特性を考慮し,分類のために1次元畳み込みニューラルネットワーク(1D-CNN)を用いた。 遺伝的アルゴリズムを用いて分類精度を最大化するために1D-CNNアーキテクチャを最適化した。 複数世代にわたる1D-CNNのトレーニングに伴う計算複雑性に対処し,事前学習モデルからトランスファー学習を実装した。 このアプローチにより、トレーニングに必要な計算時間が大幅に短縮され、最適化プロセスの効率が向上した。 本研究は,呼吸異常検出のための深層学習手法の有用性について,高精度かつ効率的な呼吸分類による検討を行った。

In this study, we present a deep learning-based approach for time-series respiration data classification. The dataset contains regular breathing patterns as well as various forms of abnormal breathing, obtained through non-contact incoherent light-wave sensing (LWS) technology. Given the one-dimensional (1D) nature of the data, we employed a 1D convolutional neural network (1D-CNN) for classification purposes. Genetic algorithm was employed to optimize the 1D-CNN architecture to maximize classification accuracy. Addressing the computational complexity associated with training the 1D-CNN across multiple generations, we implemented transfer learning from a pre-trained model. This approach significantly reduced the computational time required for training, thereby enhancing the efficiency of the optimization process. This study contributes valuable insights into the potential applications of deep learning methodologies for enhancing respiratory anomaly detection through precise and efficient respiration classification.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# Splatter Image: Ultra-Fast Single-View 3Dレコンストラクション

Splatter Image: Ultra-Fast Single-View 3D Reconstruction ( http://arxiv.org/abs/2312.13150v2 )

ライセンス: Link先を確認
Stanislaw Szymanowicz, Christian Rupprecht, Andrea Vedaldi, (参考訳) モノクローナル3次元オブジェクト再構成のための超効率的なアプローチである<method</method</method>を導入する。 Splatter ImageはGaussian Splattingをベースにしており、複数の画像から3Dシーンを高速かつ高品質に再現することができる。 テスト時に38FPSでフィードフォワードで再構成を行うニューラルネットワークを学習し,単分子再構成にガウススメッティングを適用した。 私たちの主な革新は、このネットワークの驚くほど簡単な設計で、2D演算子を使って入力画像を1ピクセルあたり1つの3Dガウスアンにマップする。 結果として得られたガウスの集合は、像 Splatter Image の形をしている。 さらに、クロスビューアテンションによる入力として、複数の画像を取得する手法を拡張した。 レンダラの速度(588 FPS)に比例して、トレーニングには1つのGPUを使用し、各イテレーションで全画像を生成し、LPIPSのような知覚的メトリクスを最適化します。 いくつかの総合、実、マルチカテゴリ、大規模ベンチマークデータセットにおいて、トレーニング中にPSNR、LPIPS、その他のメトリクスでより良い結果が得られる。 コード、モデル、デモ、その他の結果はhttps://szymanowiczs.github.io/splatter-image.comで公開されている。

We introduce the \method, an ultra-efficient approach for monocular 3D object reconstruction. Splatter Image is based on Gaussian Splatting, which allows fast and high-quality reconstruction of 3D scenes from multiple images. We apply Gaussian Splatting to monocular reconstruction by learning a neural network that, at test time, performs reconstruction in a feed-forward manner, at 38 FPS. Our main innovation is the surprisingly straightforward design of this network, which, using 2D operators, maps the input image to one 3D Gaussian per pixel. The resulting set of Gaussians thus has the form an image, the Splatter Image. We further extend the method take several images as input via cross-view attention. Owning to the speed of the renderer (588 FPS), we use a single GPU for training while generating entire images at each iteration to optimize perceptual metrics like LPIPS. On several synthetic, real, multi-category and large-scale benchmark datasets, we achieve better results in terms of PSNR, LPIPS, and other metrics while training and evaluating much faster than prior works. Code, models, demo and more results are available at https://szymanowiczs.github.io/splatter-image.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# 肺線維症におけるイメージングバイオマーカーの探索 : AIIB23チャレンジのベンチマーク

Hunting imaging biomarkers in pulmonary fibrosis: Benchmarks of the AIIB23 challenge ( http://arxiv.org/abs/2312.13752v2 )

ライセンス: Link先を確認
Yang Nan, Xiaodan Xing, Shiyi Wang, Zeyu Tang, Federico N Felder, Sheng Zhang, Roberta Eufrasia Ledda, Xiaoliu Ding, Ruiqi Yu, Weiping Liu, Feng Shi, Tianyang Sun, Zehong Cao, Minghui Zhang, Yun Gu, Hanxiao Zhang, Jian Gao, Pingyu Wang, Wen Tang, Pengxin Yu, Han Kang, Junqiang Chen, Xing Lu, Boyu Zhang, Michail Mamalakis, Francesco Prinzi, Gianluca Carlini, Lisa Cuneo, Abhirup Banerjee, Zhaohu Xing, Lei Zhu, Zacharia Mesbah, Dhruv Jain, Tsiry Mayet, Hongyu Yuan, Qing Lyu, Abdul Qayyum, Moona Mazher, Athol Wells, Simon LF Walsh, Guang Yang, (参考訳) 気道関連定量的イメージングバイオマーカーは肺疾患の検査、診断、予後に重要である。 しかし、気道の木の手作業によるデライン化は、いまだに時間を要する。 気道モデリングの強化に多大な努力が払われているが、現在利用可能なデータセットは、適度な形態変化を伴う肺疾患に焦点を当てている。 線維性肺疾患患者の肺組織に存在する複雑なミツバチのパターンは、これらの課題を悪化させ、しばしば様々な予測エラーを引き起こす。 この問題に対処するため、2023年国際医用画像コンピューティング・コンピュータ支援インターベンション会議(MICCAI)と共同で「肺線維性肺疾患2023(AIIB23)のための気道インフォームドCTイメージングバイオマーカー」のコンペティションが開催された。 気道の構造は、経験豊富な3人の放射線学者によって細心の注意を払って注釈付けされた。 競争相手は、高い堅牢性と一般化能力を持つ自動気道セグメンテーションモデルの開発を奨励され、次いで最も相関した死亡予測QIBを探索した。 120個の高分解能コンピュータ断層撮影(HRCT)スキャンのトレーニングセットが公開され、専門家の注釈と死亡率が示された。 オンライン検証セットには、線維性肺疾患患者52例のHRCTスキャンが組み込まれ、オフラインテストセットには線維症や新型コロナウイルス患者140例が含まれていた。 肺線維性疾患患者から気道木を抽出する能力は, ボクセルワイドの一般団結損失と連続性損失を導入することにより向上する可能性が示唆された。 予後判定のための競合画像バイオマーカーに加えて,既存の臨床検査,臨床評価,AIベースのバイオマーカーと比較して,強い気道由来バイオマーカー (Hazard ratio>1.5, p<0.0001) が生存予後に有用であることが判明した。

Airway-related quantitative imaging biomarkers are crucial for examination, diagnosis, and prognosis in pulmonary diseases. However, the manual delineation of airway trees remains prohibitively time-consuming. While significant efforts have been made towards enhancing airway modelling, current public-available datasets concentrate on lung diseases with moderate morphological variations. The intricate honeycombing patterns present in the lung tissues of fibrotic lung disease patients exacerbate the challenges, often leading to various prediction errors. To address this issue, the 'Airway-Informed Quantitative CT Imaging Biomarker for Fibrotic Lung Disease 2023' (AIIB23) competition was organized in conjunction with the official 2023 International Conference on Medical Image Computing and Computer Assisted Intervention (MICCAI). The airway structures were meticulously annotated by three experienced radiologists. Competitors were encouraged to develop automatic airway segmentation models with high robustness and generalization abilities, followed by exploring the most correlated QIB of mortality prediction. A training set of 120 high-resolution computerised tomography (HRCT) scans were publicly released with expert annotations and mortality status. The online validation set incorporated 52 HRCT scans from patients with fibrotic lung disease and the offline test set included 140 cases from fibrosis and COVID-19 patients. The results have shown that the capacity of extracting airway trees from patients with fibrotic lung disease could be enhanced by introducing voxel-wise weighted general union loss and continuity loss. In addition to the competitive image biomarkers for prognosis, a strong airway-derived biomarker (Hazard ratio>1.5, p<0.0001) was revealed for survival prognostication compared with existing clinical measurements, clinician assessment and AI-based biomarkers.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# 体積としての対象:不透明固体の確率幾何学的視点

Objects as volumes: A stochastic geometry view of opaque solids ( http://arxiv.org/abs/2312.15406v2 )

ライセンス: Link先を確認
Bailey Miller, Hanyu Chen, Alice Lai, Ioannis Gkioulekas, (参考訳) 我々は不透明な固体を体積として表現する理論を発展させる。 ランダムな指標関数としての不透明固体の確率的表現から始め、指数的体積輸送を用いてそのような固体をモデル化できる条件を証明した。 また、下層の指標関数の確率分布の関数として、体積減衰係数の式を導出する。 我々はこの理論を一般化し、固体の異なる部分における等方的および異方的散乱を考慮し、不透明な固体を確率的暗示曲面として表現する。 容積表現を第一原理から導き、相互性や可逆性といった物理的な制約を満たすことを保証します。 本理論は,従来のボリューム表現の説明,比較,修正を行うとともに,3次元再構成タスクの性能向上につながる有意義な拡張を提案する。

We develop a theory for the representation of opaque solids as volumes. Starting from a stochastic representation of opaque solids as random indicator functions, we prove the conditions under which such solids can be modeled using exponential volumetric transport. We also derive expressions for the volumetric attenuation coefficient as a functional of the probability distributions of the underlying indicator functions. We generalize our theory to account for isotropic and anisotropic scattering at different parts of the solid, and for representations of opaque solids as stochastic implicit surfaces. We derive our volumetric representation from first principles, which ensures that it satisfies physical constraints such as reciprocity and reversibility. We use our theory to explain, compare, and correct previous volumetric representations, as well as propose meaningful extensions that lead to improved performance in 3D reconstruction tasks.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# アライメントのための良いデータとは何か : インストラクションチューニングにおける自動データ選択の総合的研究

What Makes Good Data for Alignment? A Comprehensive Study of Automatic Data Selection in Instruction Tuning ( http://arxiv.org/abs/2312.15685v2 )

ライセンス: Link先を確認
Wei Liu, Weihao Zeng, Keqing He, Yong Jiang, Junxian He, (参考訳) インストラクションチューニング(英: Instruction tuning)は、最初の事前学習フェーズの後に、大きな言語モデルをエンドタスクやユーザの好みに合わせるための標準手法である。 近年の研究では、インストラクションチューニングにおいてデータエンジニアリングが重要な役割を担っていることが示されている。 しかし、アライメントのための優れたインストラクションチューニングデータの作成方法や、データを自動かつ効果的に選択する方法に関する、原則的な理解はいまだに欠けています。 本研究では、アライメントのための自動データ選択戦略について深く研究する。 まず,複雑性,品質,多様性の3次元にわたってデータを測定するための制御された研究から始め,既存の手法を検証し,データ測定を強化する新しい手法を導入する。 そこで本研究では,測定値に基づいてデータサンプルを選択するための簡単な手法を提案する。 本稿では,LLaMAモデルとMistralモデルから抽出した一連のモデルであるdeitaを,提案手法で自動的に選択したデータサンプルを用いて提示する。 実証的には、Deitaは6K SFTトレーニングデータサンプルだけで、最先端のオープンソースアライメントモデルと同等か、あるいは同等に動作します。 直接選好最適化(DPO)でさらに訓練すると、Deita-Mistral-7B + DPOは6K SFTと10K DPOサンプルで訓練され、7.55 MT-Benchと90.06% AlpacaEvalスコアを得た。 この作業は、自動データ選択のためのツールを提供し、データ効率の調整を容易にすることを期待する。 我々は、モデルをより効率的に整合させるために、将来の研究のために選択したデータセットだけでなく、モデルもリリースします。

Instruction tuning is a standard technique employed to align large language models to end tasks and user preferences after the initial pretraining phase. Recent research indicates the critical role of data engineering in instruction tuning -- when appropriately selected, only limited data is necessary to achieve superior performance. However, we still lack a principled understanding of what makes good instruction tuning data for alignment, and how we should select data automatically and effectively. In this work, we delve deeply into automatic data selection strategies for alignment. We start with controlled studies to measure data across three dimensions: complexity, quality, and diversity, along which we examine existing methods and introduce novel techniques for enhanced data measurement. Subsequently, we propose a simple strategy to select data samples based on the measurement. We present deita (short for Data-Efficient Instruction Tuning for Alignment), a series of models fine-tuned from LLaMA and Mistral models using data samples automatically selected with our proposed approach. Empirically, deita performs better or on par with the state-of-the-art open-source alignment models with only 6K SFT training data samples -- over 10x less than the data used in the baselines. When further trained with direct preference optimization (DPO), deita-Mistral-7B + DPO trained with 6K SFT and 10K DPO samples achieve 7.55 MT-Bench and 90.06% AlpacaEval scores. We anticipate this work to provide tools on automatic data selection, facilitating data-efficient alignment. We release our models as well as the selected datasets for future researches to effectively align models more efficiently.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# 散逸系における量子相のシグナチャ

Signatures of quantum phases in a dissipative system ( http://arxiv.org/abs/2312.17166v2 )

ライセンス: Link先を確認
Rohan Joshi, Saikat Mondal, Souvik Bandyopadhyay, Sourav Bhattacharjee, Adhip Agarwala, (参考訳) リンドブラディアン形式は、散逸と開系に合わせたもので、量子多体系の非平衡定常状態の解釈に広範に行われている。 拡散型1次元キタエフモデルにおける自由フェルミオンおよび超伝導相の運命について検討し, 浴槽はカップリング速度の異なるフェルミオン粒子のソースとシンクの両方として機能することを示した。 これら2つの結合の関数として, 定常状態, 絡み合い含量, および初期状態からのアプローチについて検討する。 興味深いことに、定常状態相図は、基底状態臨界物理学の解読可能なシグネチャを保持する。 また,このような状況下での位相遷移のサブクラスを見つけるためには,早期忠実度が有用であることを示す。 さらに,近年の臨界シグネチャの生存は,定常状態の熱的性質に強く依存していることが示唆された。 この接続は、そのような系の定常状態における量子可観測物と古典的磁性の間の対応を示唆している。 我々の研究は、散逸性量子多体系、古典スピンの熱化と多体量子臨界現象の間の興味深い関係を明らかにする。

Lindbladian formalism, as tuned to dissipative and open systems, has been all-pervasive to interpret non-equilibrium steady states of quantum many-body systems. We study the fate of free fermionic and superconducting phases in a dissipative one-dimensional Kitaev model - where the bath acts both as a source and a sink of fermionic particles with different coupling rates. As a function of these two couplings, we investigate the steady state, its entanglement content, and its approach from varying initial states. Interestingly, we find that the steady state phase diagram retains decipherable signatures of ground state critical physics. We also show that early-time fidelity is a useful marker to find a subclass of phase transitions in such situations. Moreover, we show that the survival of critical signatures at late-times, strongly depend on the thermal nature of the steady state. This connection hints at a correspondence between quantum observables and classical magnetism in the steady state of such systems. Our work uncovers interesting connections between dissipative quantum many-body systems, thermalization of a classical spin and many-body quantum critical phenomena.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# ニューラル表現性を考慮したSO(3)-等価化:電子構造ハミルトニアン予測を目的としたハイブリッドディープラーニングフレームワーク

Harmonizing SO(3)-Equivariance with Neural Expressiveness: a Hybrid Deep Learning Framework Oriented to the Prediction of Electronic Structure Hamiltonian ( http://arxiv.org/abs/2401.00744v8 )

ライセンス: Link先を確認
Shi Yin, Xinyang Pan, Xudong Zhu, Tianyu Gao, Haochong Zhang, Feng Wu, Lixin He, (参考訳) 量子系の電子構造を予測するための深層学習 量子系のハミルトニアンは共分散法則を満たす必要があるが、ネットワークの非線形表現能力を犠牲にすることなくSO(3)-等分散を達成することは未解決のままである。 そこで本研究では,2段階の回帰フレームワークとして,ニューラルメカニズムの2つの異なるカテゴリを合成する深層学習手法を提案する。 第1段階は、パラメータ学習プロセスに先立って固有のSO(3)-同変特性を持つ群理論に基づく神経機構に対応し、第2段階は非線形3Dグラフ変換器ネットワークにより特徴付けられる。 新たな組み合わせは、第1段階がSO(3)-等変量の豊富なベースラインハミルトニアンを予測し、第2段階が等価性の経験的学習において補助し、第2段階が第2段階の出力を強力な非線形神経マッピングを用いてハミルトンの微細な予測として洗練し、第1段階のメカニズムの非線形表現能力に固有の弱点を補う点にある。 本手法は, 回転変換下でのSO(3)-等分散性を維持しつつ, 高精度で一般化可能な予測が可能であり, 6つのベンチマークデータベース上でのハミルトン予測における最先端性能を実現する。

Deep learning for predicting the electronic structure Hamiltonian of quantum systems necessitates satisfying the covariance laws, among which achieving SO(3)-equivariance without sacrificing the non-linear expressive capability of networks remains unsolved. To navigate the harmonization between equivariance and expressiveness, we propose a deep learning method synergizing two distinct categories of neural mechanisms as a two-stage cascaded regression framework. The first stage corresponds to group theory-based neural mechanisms with inherent SO(3)-equivariant properties prior to the parameter learning process, while the second stage is characterized by a non-linear 3D graph Transformer network we propose featuring high capability on non-linear expressiveness. The novel combination lies in the point that, the first stage predicts baseline Hamiltonians with abundant SO(3)-equivariant features extracted, assisting the second stage in empirical learning of equivariance; and in turn, the second stage refines the first stage's output as a fine-grained prediction of Hamiltonians using powerful non-linear neural mappings, compensating for the intrinsic weakness on non-linear expressiveness capability of mechanisms in the first stage. Our method enables precise, generalizable predictions while maintaining robust SO(3)-equivariance under rotational transformations, and achieves state-of-the-art performance in Hamiltonian prediction on six benchmark databases.
翻訳日:2024-04-17 23:35:28 公開日:2024-04-16
# PeFoMed:マルチモーダル大言語モデルのパラメータ最適化

PeFoMed: Parameter Efficient Fine-tuning of Multimodal Large Language Models for Medical Imaging ( http://arxiv.org/abs/2401.02797v2 )

ライセンス: Link先を確認
Gang Liu, Jinlong He, Pengfei Li, Genrong He, Zhaolin Chen, Shenjun Zhong, (参考訳) MLLM(Multimodal large language model)は、従来の大規模言語モデルの能力の進化的拡張を表すもので、純粋にテキストベースのアプリケーションの範囲を超えた課題に取り組むことができる。 以前はこれらの言語モデルにエンコードされていた知識を活用し、マルチモーダルな文脈におけるそれらの適用性と機能を強化する。 近年,MLLMを医療用マルチモーダル問題に対する普遍的解決法として応用する研究が進められている。 本稿では,Med-VQA (Med-VQA) とMRG (Med-VQA) タスクを公衆ベンチマークデータセットを用いて検証し,MLLMを微調整するためのパラメータ効率のよいフレームワークを提案する。 また, 5-point Likert 尺度とその重み付き平均値を用いて, MRG タスクにおける生成した報告の質を測定し, 人手による評価と GPT-4 モデルによる評価を行った。 さらに,従来の測定値,GPT-4,VQA,MRGの両タスクに対する評価値の整合性を評価する。 その結果, GPT-4を用いた意味的類似度評価はヒトのアノテータと密接に一致し, 安定性が向上したが, 従来の語彙的類似度測定と比較すると相違があることが示唆された。 本稿では,Med-VQAにおける生成モデルの性能評価のための語彙類似度指標の信頼性とレポート生成タスクについて考察する。 さらに, 微調整モデルの方がGPT-4vより有意に優れていた。 これは、追加の微調整なしでは、GPT-4vのようなマルチモーダルモデルが医療画像のタスクで効果的に機能しないことを示している。 コードは、https://github.com/jinlHe/PeFoMed.comで入手できる。

Multimodal large language models (MLLMs) represent an evolutionary expansion in the capabilities of traditional large language models, enabling them to tackle challenges that surpass the scope of purely text-based applications. It leverages the knowledge previously encoded within these language models, thereby enhancing their applicability and functionality in the reign of multimodal contexts. Recent works investigate the adaptation of MLLMs as a universal solution to address medical multi-modal problems as a generative task. In this paper, we propose a parameter efficient framework for fine-tuning MLLMs, specifically validated on medical visual question answering (Med-VQA) and medical report generation (MRG) tasks, using public benchmark datasets. We also introduce an evaluation metric using the 5-point Likert scale and its weighted average value to measure the quality of the generated reports for MRG tasks, where the scale ratings are labelled by both humans manually and the GPT-4 model. We further assess the consistency of performance metrics across traditional measures, GPT-4, and human ratings for both VQA and MRG tasks. The results indicate that semantic similarity assessments using GPT-4 align closely with human annotators and provide greater stability, yet they reveal a discrepancy when compared to conventional lexical similarity measurements. This questions the reliability of lexical similarity metrics for evaluating the performance of generative models in Med-VQA and report generation tasks. Besides, our fine-tuned model significantly outperforms GPT-4v. This indicates that without additional fine-tuning, multi-modal models like GPT-4v do not perform effectively on medical imaging tasks. The code will be available here: https://github.com/jinlHe/PeFoMed.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# 不均一グラフ上の分布外一般化のためのFew-Shot Causal Representation Learning

Few-Shot Causal Representation Learning for Out-of-Distribution Generalization on Heterogeneous Graphs ( http://arxiv.org/abs/2401.03597v3 )

ライセンス: Link先を確認
Pengfei Ding, Yan Wang, Guanfeng Liu, Nan Wang, Xiaofang Zhou, (参考訳) Heterogeneous graph few-shot Learning (HGFL) は、様々な種類のノードとエッジから構成されるヘテロジニアスグラフ(HG)のラベル空間問題に対処するために開発された。 HGFLの中核的な概念は、ソースHGのリッチラベルされたクラスから知識を抽出し、この知識をターゲットHGに転送して、少数のラベル付きトレーニングデータで新しいクラスを学習し、最終的にラベル付きテストデータで予測することである。 既存の方法は、典型的には、ソースHG、トレーニングデータ、テストデータは全て同じ分布を共有していると仮定する。 しかし、実際には、(1)対象のHG分布と一致するソースHGの限られた可用性、(2)対象のHGの予測不能なデータ生成機構の2つの理由により、これらの3種類のデータ間の分散シフトは避けられない。 このような分布シフトは,既存の手法では非効率な知識伝達と学習性能の低下をもたらすため,HGFLにおけるアウト・オブ・ディストリビューション(OOD)の一般化という新たな問題に繋がる。 この課題に対処するため、我々はCausal OOD Heterogeneous graph Few-shot Learning Model、すなわちCOHFを提案する。 COHFでは、構造因果モデルを用いてHGの分布シフトを初めて特徴付け、HGFLにおけるOOD一般化の不変原理を確立した。 そして、この不変原理に従い、分散シフトの影響を軽減するために、新しい変分自己エンコーダに基づく異種グラフニューラルネットワークを提案する。 最後に、このネットワークを新しいメタ学習フレームワークと統合することにより、COHFは知識をターゲットHGに効果的に転送し、ラベルの少ないデータで新しいクラスを予測する。 7つの実世界のデータセットに対する大規模な実験は、最先端の手法よりもCOHFの優れた性能を示している。

Heterogeneous graph few-shot learning (HGFL) has been developed to address the label sparsity issue in heterogeneous graphs (HGs), which consist of various types of nodes and edges. The core concept of HGFL is to extract knowledge from rich-labeled classes in a source HG, transfer this knowledge to a target HG to facilitate learning new classes with few-labeled training data, and finally make predictions on unlabeled testing data. Existing methods typically assume that the source HG, training data, and testing data all share the same distribution. However, in practice, distribution shifts among these three types of data are inevitable due to two reasons: (1) the limited availability of the source HG that matches the target HG distribution, and (2) the unpredictable data generation mechanism of the target HG. Such distribution shifts result in ineffective knowledge transfer and poor learning performance in existing methods, thereby leading to a novel problem of out-of-distribution (OOD) generalization in HGFL. To address this challenging problem, we propose a novel Causal OOD Heterogeneous graph Few-shot learning model, namely COHF. In COHF, we first characterize distribution shifts in HGs with a structural causal model, establishing an invariance principle for OOD generalization in HGFL. Then, following this invariance principle, we propose a new variational autoencoder-based heterogeneous graph neural network to mitigate the impact of distribution shifts. Finally, by integrating this network with a novel meta-learning framework, COHF effectively transfers knowledge to the target HG to predict new classes with few-labeled data. Extensive experiments on seven real-world datasets have demonstrated the superior performance of COHF over the state-of-the-art methods.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# 凝縮スピン鎖の局所クエンチにおける逃避フロント

Escaping fronts in local quenches of a confining spin chain ( http://arxiv.org/abs/2401.04193v3 )

ライセンス: Link先を確認
A. Krasznai, G. Takács, (参考訳) 強磁性状態における収束量子イジングスピン鎖の真または偽真空状態における1つのスピンフリップによって生成された初期状態からの局所クエンチを考察する。 光円錐の挙動が強く抑制されている大域的なクエンチとは対照的に、期待される局部発振成分に加えて、非ゼロ速度で伝搬する有意な光円錐信号が見つかる。 2つのフェルミオン近似を用いて初期状態の解析的表現と関連する励起の数値的記述を組み合わせることで、後処理の励起スペクトルと初期状態との重なりを構築でき、基礎となるメカニズムを特定できる。 真の真空上に構築されたクエンチを精製するために、伝播信号は、閉じ込めを逃れる左右移動中間子の重ね合わせからなる。 対照的に、偽真空上に構築された反畳み込みクエンチは、ワニエ・スタークの局在を逃れる左右移動バブルの重ね合わせで構成されている。

We consider local quenches from initial states generated by a single spin-flip in either the true or the false vacuum state of the confining quantum Ising spin chain in the ferromagnetic regime. Contrary to global quenches, where the light-cone behaviour is strongly suppressed, we find a significant light-cone signal propagating with a nonzero velocity besides the expected localised oscillating component. Combining an analytic representation of the initial state with a numerical description of the relevant excitations using the two-fermion approximation, we can construct the spectrum of post-quench excitations and their overlaps with the initial state, identifying the underlying mechanism. For confining quenches built upon the true vacuum, the propagating signal consists of superpositions of left and right-moving mesons escaping confinement. In contrast, for anti-confining quenches built upon the false vacuum it is composed of superpositions of left and right-moving bubbles which escape Wannier-Stark localisation.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# ブール関数のシェープライクなスコア:複雑さと確率データベースへの応用

Expected Shapley-Like Scores of Boolean Functions: Complexity and Applications to Probabilistic Databases ( http://arxiv.org/abs/2401.06493v2 )

ライセンス: Link先を確認
Pratik Karmakar, Mikaël Monet, Pierre Senellart, Stéphane Bressan, (参考訳) 共有値はゲーム理論を起源とし、説明可能なAIにおいてますます顕著になっているが、データベース上の問合せ応答における事実の貢献と、Banzhaf値のような他の類似のパワー指標を評価するために提案されている。 この作業では、これらのシェープのようなスコアを確率的設定に適応させ、その目的は期待値を計算することである。 本研究では,期待されるシェープリー値とブール関数の期待値の計算が多項式時間で解釈可能であることを示す。 本稿では,ブール関数が決定論的分解可能回路として表現される特定のトラクタブルケースについて検討し,この設定のための多項式時間アルゴリズムを設計する。 本稿では,データベースの証明を通じて確率的データベースに適用し,このアルゴリズムをProvSQLシステム内で効果的に実装し,標準ベンチマーク上での有効性を実験的に検証する。

Shapley values, originating in game theory and increasingly prominent in explainable AI, have been proposed to assess the contribution of facts in query answering over databases, along with other similar power indices such as Banzhaf values. In this work we adapt these Shapley-like scores to probabilistic settings, the objective being to compute their expected value. We show that the computations of expected Shapley values and of the expected values of Boolean functions are interreducible in polynomial time, thus obtaining the same tractability landscape. We investigate the specific tractable case where Boolean functions are represented as deterministic decomposable circuits, designing a polynomial-time algorithm for this setting. We present applications to probabilistic databases through database provenance, and an effective implementation of this algorithm within the ProvSQL system, which experimentally validates its feasibility over a standard benchmark.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# モデレーション効果のための因果機械学習

Causal Machine Learning for Moderation Effects ( http://arxiv.org/abs/2401.08290v2 )

ライセンス: Link先を確認
Nora Bearth, Michael Lechner, (参考訳) 意思決定者にとって、意思決定(処理)が平均的およびサブグループに与える影響を知ることは価値がある。 因果機械学習の文献は、最近、グループ平均治療効果(GATE)を推定し、治療の不均一性をよりよく理解するためのツールを提供している。 本稿では、他の共変量の変化を考慮しつつ、グループ間の治療効果の違いを解釈する上での課題について述べる。 本稿では,先行決定共変量の特定の分布でGATEを測定するための新しいパラメータBGATEを提案する。 2つのBGATEの違いをとることで、2つのGATEを比較するよりも、より意味のある異質性を分析することができる。 このパラメータの推定戦略は、非整合性設定における離散処理のための二重/偏平機械学習に基づいており、この推定器は標準条件下では$\sqrt{N}$-consistentおよび漸近正規であることを示す。 追加の特定仮定を加えることで、グループ間の治療効果の特定のバランスの取れた違いを因果的に解釈することができ、因果バランスの取れたグループ平均治療効果につながる。 小型シミュレーション実験において, 有限標本特性について検討し, 実験例でこれらのパラメータの有用性を実証する。

It is valuable for any decision maker to know the impact of decisions (treatments) on average and for subgroups. The causal machine learning literature has recently provided tools for estimating group average treatment effects (GATE) to understand treatment heterogeneity better. This paper addresses the challenge of interpreting such differences in treatment effects between groups while accounting for variations in other covariates. We propose a new parameter, the balanced group average treatment effect (BGATE), which measures a GATE with a specific distribution of a priori-determined covariates. By taking the difference of two BGATEs, we can analyse heterogeneity more meaningfully than by comparing two GATEs. The estimation strategy for this parameter is based on double/debiased machine learning for discrete treatments in an unconfoundedness setting, and the estimator is shown to be $\sqrt{N}$-consistent and asymptotically normal under standard conditions. Adding additional identifying assumptions allows specific balanced differences in treatment effects between groups to be interpreted causally, leading to the causal balanced group average treatment effect. We explore the finite sample properties in a small-scale simulation study and demonstrate the usefulness of these parameters in an empirical example.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# RiemannONets: Riemann問題に対する解釈可能なニューラル演算子

RiemannONets: Interpretable Neural Operators for Riemann Problems ( http://arxiv.org/abs/2401.08886v2 )

ライセンス: Link先を確認
Ahmad Peyvan, Vivek Oommen, Ameya D. Jagtap, George Em Karniadakis, (参考訳) 強い衝撃波, 希少性, 接触不連続性をともなう高速流れをシミュレーションするための適切な表現を開発することは, 数値解析において長年にわたって疑問視されてきた。 ここでは、超圧力ジャンプのために圧縮性流れで発生するリーマン問題を解くために、ニューラル演算子を用いる(最大10^{10}$圧力比)。 特に,DeepONetは,最近行われた「cite{lee2023training}」の成果に倣って,まず2段階のプロセスでトレーニングすると考え,第1段階では,直交正規化されたトランクネットからベースを抽出し,その後,第2段階のブランチネットのトレーニングに使用する。 このDeepONetの単純な修正は、その正確さ、効率、堅牢性に大きな影響を与え、バニラ版と比較してリーマン問題に対する非常に正確な解決をもたらす。 また、階層的なデータ駆動生成ベースが、アドホックな機能拡張層を使って導入されるであろうすべてのフロー特徴を反映しているとして、結果を物理的に解釈することができる。 また、この結果と、低、中、超高圧比に対するU-Netに基づく別のニューラル演算子との比較を行った。 本研究は,ニューラルネットワークアーキテクチャが適切に事前訓練された場合,実時間予測のためのリーマン問題の極めて正確な解が得られることを示す。 ソースコードは対応するデータとともに、以下のURLで見ることができる。

Developing the proper representations for simulating high-speed flows with strong shock waves, rarefactions, and contact discontinuities has been a long-standing question in numerical analysis. Herein, we employ neural operators to solve Riemann problems encountered in compressible flows for extreme pressure jumps (up to $10^{10}$ pressure ratio). In particular, we first consider the DeepONet that we train in a two-stage process, following the recent work of \cite{lee2023training}, wherein the first stage, a basis is extracted from the trunk net, which is orthonormalized and subsequently is used in the second stage in training the branch net. This simple modification of DeepONet has a profound effect on its accuracy, efficiency, and robustness and leads to very accurate solutions to Riemann problems compared to the vanilla version. It also enables us to interpret the results physically as the hierarchical data-driven produced basis reflects all the flow features that would otherwise be introduced using ad hoc feature expansion layers. We also compare the results with another neural operator based on the U-Net for low, intermediate, and very high-pressure ratios that are very accurate for Riemann problems, especially for large pressure ratios, due to their multiscale nature but computationally more expensive. Overall, our study demonstrates that simple neural network architectures, if properly pre-trained, can achieve very accurate solutions of Riemann problems for real-time forecasting. The source code, along with its corresponding data, can be found at the following URL: https://github.com/apey236/RiemannONet/tree/main
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# AI支援と病理診断の協力:EMPAIAイニシアチブ

Joining Forces for Pathology Diagnostics with AI Assistance: The EMPAIA Initiative ( http://arxiv.org/abs/2401.09450v2 )

ライセンス: Link先を確認
Norman Zerbe, Lars Ole Schwen, Christian Geißler, Katja Wiesemann, Tom Bisson, Peter Boor, Rita Carvalho, Michael Franz, Christoph Jansen, Tim-Rasmus Kiehl, Björn Lindequist, Nora Charlotte Pohlan, Sarah Schmell, Klaus Strohmenger, Falk Zakrzewski, Markus Plass, Michael Takla, Tobias Küster, André Homeyer, Peter Hufnagl, (参考訳) 過去10年間で、病理学における人工知能(AI)の手法は大幅に進歩した。 しかし, 臨床診断製品への研究成果の翻訳における技術的, 規制的ハードルや, 標準化されたインターフェースの欠如など, 日常的な臨床実践への統合は遅れている。 オープンでベンダ中立のEMPAIAイニシアチブは、これらの課題に対処する。 本稿では,EMPAIAの成果と教訓について概説する。 EMPAIAは病理AIエコシステムの様々なステークホルダー、すなわち病理学者、コンピュータ科学者、産業を統合している。 緊密なコラボレーションでは、技術的相互運用性の標準、AIテストと製品開発のための推奨、説明可能性の方法を開発しました。 モジュール化されたオープンソースのEMPAIAプラットフォームを実装し、8つの異なるベンダーから14のAIベースの画像分析アプリを統合することに成功した。 ヨーロッパとアジアで14種類の病理実験室で, 臨床現場におけるAIの活用を優先し, 検討した。 技術開発に加えて、すべての利害関係者がデジタル病理とAIに関する情報と経験を共有するためのフォーラムを作りました。 商業的、臨床的、学術的なステークホルダーは、EMPAIAの共通のオープンソースインターフェースを採用することができ、大規模な標準化とプロセスの合理化のユニークな機会を提供する。 日常的な実験室でのAI支援を効果的かつ広範囲に確立するためには、さらなる努力が必要である。 この目的のために、持続可能なインフラである非営利団体EMPAIA Internationalが確立され、AI支援のデジタル病理学の将来に向けて、標準化と幅広い実装と支援が続けられている。

Over the past decade, artificial intelligence (AI) methods in pathology have advanced substantially. However, integration into routine clinical practice has been slow due to numerous challenges, including technical and regulatory hurdles in translating research results into clinical diagnostic products and the lack of standardized interfaces. The open and vendor-neutral EMPAIA initiative addresses these challenges. Here, we provide an overview of EMPAIA's achievements and lessons learned. EMPAIA integrates various stakeholders of the pathology AI ecosystem, i.e., pathologists, computer scientists, and industry. In close collaboration, we developed technical interoperability standards, recommendations for AI testing and product development, and explainability methods. We implemented the modular and open-source EMPAIA platform and successfully integrated 14 AI-based image analysis apps from 8 different vendors, demonstrating how different apps can use a single standardized interface. We prioritized requirements and evaluated the use of AI in real clinical settings with 14 different pathology laboratories in Europe and Asia. In addition to technical developments, we created a forum for all stakeholders to share information and experiences on digital pathology and AI. Commercial, clinical, and academic stakeholders can now adopt EMPAIA's common open-source interfaces, providing a unique opportunity for large-scale standardization and streamlining of processes. Further efforts are needed to effectively and broadly establish AI assistance in routine laboratory use. To this end, a sustainable infrastructure, the non-profit association EMPAIA International, has been established to continue standardization and support broad implementation and advocacy for an AI-assisted digital pathology future.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# 量子リセットモデルのエントロピー生成

Entropy Production of Quantum Reset Models ( http://arxiv.org/abs/2401.10022v2 )

ライセンス: Link先を確認
Géraldine Haack, Alain Joye, (参考訳) 外部環境における散逸の確率論的記述によって動機付けられたリンドブラディアンによって駆動される量子力学半群に対応する量子リセットモデル(QRM)のエントロピー生成を解析する。 QRMの和として与えられたリンドブラディアンのエントロピー生成の厳密な肯定性について検討し、各QRMのハミルトニアンとのアフィン結合としてリンドブラディアン全体のハミルトニアンを分割する。 この設定では、組合せの係数とリセット状態の条件を導出し、正かゼロのエントロピーの生成を保証する。 第二に、2つの独立なQRMと弱い結合ハミルトニアンに三部系を末尾に扱う。 後者は個々のハミルトニアンのアフィン結合として分割され、エントロピー生成の厳密な正性を保証する必要十分条件を1つのアフィン結合を除いて満たす。 これらの結果を物理的動機付けモデルに適用し, 先行定常解, エントロピー生成, エントロピーフラックスに対する明示的な表現を示す。 さらに、これらの近似は期待される体制を超えて成り立つことが数値的に示される。

We analyze the entropy production of Quantum Reset Models (QRMs) corresponding to quantum dynamical semigroups driven by Lindbladians motivated by a probabilistic description of dissipation in an external environment. We investigate the strict positivity of entropy production for Lindbladians given as sums of QRMs, when the Hamiltonian of the total Lindbladian is split as an affine combination of Hamiltonians of the individual QRMs. In this setup, we derive conditions on the coefficients of the combination and on the reset states ensuring either positive or zero entropy production. Second, we deal with a tri-partite system subject at its ends to two independent QRMs and a weak coupling Hamiltonian. The latter is split as an affine combination of individual Hamiltonians, and we provide necessary and sufficient conditions ensuring strict positivity of the entropy production to leading order, with the possible exception of one affine combination. We apply these results to a physically motivated model and exhibit explicit expressions for the leading orders steady-state solution, entropy production and entropy fluxes. Moreover, these approximations are numerically shown to hold beyond the expected regimes.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# 乳房におけるニップ・ハロシン化の知識検証

Knowledge Verification to Nip Hallucination in the Bud ( http://arxiv.org/abs/2401.10768v4 )

ライセンス: Link先を確認
Fanqi Wan, Xinting Huang, Leyang Cui, Xiaojun Quan, Wei Bi, Shuming Shi, (参考訳) 大規模言語モデル(LLM)は、人間のアライメントに続く様々なタスクにおいて例外的な性能を示したが、それらは依然として、可塑性に聞こえるが事実知識と矛盾する応答を発生させるかもしれない。 本稿では、アライメントデータに存在する外部知識と基礎LLM内に埋め込まれた固有の知識との矛盾を検証し、最小化することにより、幻覚を緩和する可能性を示す。 具体的には,知識一貫性アライメント(KCA, Knowledge Consistent Alignment)と呼ばれる,外部知識に基づく評価を自動的に定式化し,基礎LPMの知識境界を評価する手法を提案する。 アライメントデータにおける知識の不整合に対処するため、KCAはこれらのデータインスタンスを扱うためのいくつかの具体的な戦略を実装している。 6つのベンチマークで幻覚を減らし, バックボーンとスケールの異なる基礎的LCMを利用することで, KCAの優れた効果を実証した。 これは、知識の不整合を減らして幻覚を緩和する効果を確認する。 私たちのコード、モデルウェイト、データは、 \url{https://github.com/fanqiwan/KCA}で公開アクセスできます。

While large language models (LLMs) have demonstrated exceptional performance across various tasks following human alignment, they may still generate responses that sound plausible but contradict factual knowledge, a phenomenon known as \emph{hallucination}. In this paper, we demonstrate the feasibility of mitigating hallucinations by verifying and minimizing the inconsistency between external knowledge present in the alignment data and the intrinsic knowledge embedded within foundation LLMs. Specifically, we propose a novel approach called Knowledge Consistent Alignment (KCA), which employs a well-aligned LLM to automatically formulate assessments based on external knowledge to evaluate the knowledge boundaries of foundation LLMs. To address knowledge inconsistencies in the alignment data, KCA implements several specific strategies to deal with these data instances. We demonstrate the superior efficacy of KCA in reducing hallucinations across six benchmarks, utilizing foundation LLMs of varying backbones and scales. This confirms the effectiveness of mitigating hallucinations by reducing knowledge inconsistency. Our code, model weights, and data are openly accessible at \url{https://github.com/fanqiwan/KCA}.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# 開量子系における動的不変量に基づくショートカットと平衡

Dynamical invariant based shortcut to equilibration in open quantum systems ( http://arxiv.org/abs/2401.11659v2 )

ライセンス: Link先を確認
Mohamed Boubakour, Shimpei Endo, Thomás Fogarty, Thomas Busch, (参考訳) 我々はルイス=リースフェルド不変量(Lewis-Riesenfeld invariant)としても知られる力学不変量を用いて、駆動されたオープン量子系の平衡を高速化する。 これにより、オープン量子系の力学を記述した時間依存マスター方程式をリバースエンジニアリングし、平衡のショートカットを実現するプロトコルを体系的に導出することができる。 この方法はボルン・マルコフ近似の傍らにおける力学の時間スケールに関する追加の制約を必要とせず、単一粒子量子エンジンを著しく加速するために汎用的に適用することができる。 我々は、減衰した高調波発振器を用いてこれを実証し、単純な非最適化プロトコルよりも短い時間スケールで高忠実度制御を実現できることを示す。 この系は、量子制御におけるMpemba効果の類似と見なすことができる平衡を高速化するために動的に加熱されている。

We propose using the dynamical invariant also known as the Lewis-Riesenfeld invariant, to speed-up the equilibration of a driven open quantum system. This allows us to reverse engineer the time-dependent master equation that describes the dynamics of the open quantum system and systematically derive a protocol that realizes a shortcut to equilibration. The method does not require additional constraints on the timescale of the dynamics beside the Born-Markov approximation and can be generically applied to boost single particle quantum engines significantly. We demonstrate it with the damped harmonic oscillator, and show that our protocol can achieve a high-fidelity control in shorter timescales than simple non-optimized protocols. We find that the system is heated during the dynamics to speed-up the equilibration, which can be considered as an analogue of the Mpemba effect in quantum control.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# パリティ測定によるマグノンベル状態の生成

Generating magnon Bell states via parity measurement ( http://arxiv.org/abs/2401.11684v2 )

ライセンス: Link先を確認
Jia-shun Yan, Jun Jing, (参考訳) 本研究では,パリティ測定に基づく2つのマグノンモードの絡み合わせ手法を提案する。 特に、2つのイットリウム-鉄-ガーネット球がキャビティモードを介する間接相互作用により、$V$型の超伝導クォートに結合されるシステムを考える。 2つのマクロスピン系を所望の部分空間に投影できる効果的なパリティ測定演算子は、アシラリークォートが基底状態に投影されたときに現われる。 したがって、従来のマノンベル状態や多重励起ベル状態は、望まれる部分空間に存在しない集団を持つ任意の分離可能な状態から生成することができる。 ターゲット状態は、数回の測定でのみ、単位近傍の忠実度で蒸留することができ、測定の不完全性や環境デコヒーレンスの存在下で安定化することができる。 さらに、時間領域のデチューニングを形作ることにより、我々のスキームの単発バージョンを得る。 非線形ハミルトニアンに依存しない我々のスキームは、量子測定によって巨大な強磁性体の絡み合った状態の発生を洞察する。

We propose a scheme to entangle two magnon modes based on parity measurement. In particular, we consider a system that two yttrium-iron-garnet spheres are coupled to a $V$-type superconducting qutrit through the indirect interactions mediated by cavity modes. An effective parity-measurement operator that can project the two macroscopic spin systems to the desired subspace emerges when the ancillary qutrit is projected to the ground state. Consequently, conventional and multi-excitation magnon Bell states can be generated from any separable states with a nonvanishing population in the desired subspace. The target state can be distilled with a near-to-unit fidelity only by several rounds of measurements and can be stabilized in the presence of the measurement imperfection and environmental decoherence. In addition, a single-shot version of our scheme is obtained by shaping the detuning in the time domain. Our scheme that does not rely on any nonlinear Hamiltonian brings insight to the entangled-state generation in massive ferrimagnetic materials via quantum measurement.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# 明示的表現型構文は予期せぬ状況の文-行間予測を改善する

Explicitly Representing Syntax Improves Sentence-to-layout Prediction of Unexpected Situations ( http://arxiv.org/abs/2401.14212v2 )

ライセンス: Link先を確認
Wolf Nuyts, Ruben Cartuyvels, Marie-Francine Moens, (参考訳) 自然言語文中の視覚的実体を認識し、2次元空間配置で配置するには、言語と空間の合成的理解が必要である。 このレイアウト予測のタスクは、画像の局所化と制御が可能であるため、テキストと画像の合成において有用である。 この比較研究では,文の構文を暗黙的にあるいは明示的にエンコードする言語表現から,文が訓練中に見られるものと類似した実体関係について言及した場合に,レイアウトを予測できることが示されている。 構成的理解をテストするために,学習中に見つからなかったエンティティや関係の合成を記述した文法的に正しい文とレイアウトのテストセットを収集する。 このテストセットの性能は大幅に低下し、現在のモデルはトレーニングデータの相関に頼っており、入力文の構造を理解するのに困難であることを示す。 本稿では,テキスト上で2次元空間配置予測を行うタスクにおいて,入力文の構文構造をよりよく実施し,大きな性能向上を示す構造的損失関数を提案する。 この損失は、木のような構造が条件付けのモダリティの下にある他の世代タスクで使われる可能性がある。 コード、トレーニングされたモデル、USCOCO評価セットはgithub経由で利用できる。

Recognizing visual entities in a natural language sentence and arranging them in a 2D spatial layout require a compositional understanding of language and space. This task of layout prediction is valuable in text-to-image synthesis as it allows localized and controlled in-painting of the image. In this comparative study it is shown that we can predict layouts from language representations that implicitly or explicitly encode sentence syntax, if the sentences mention similar entity-relationships to the ones seen during training. To test compositional understanding, we collect a test set of grammatically correct sentences and layouts describing compositions of entities and relations that unlikely have been seen during training. Performance on this test set substantially drops, showing that current models rely on correlations in the training data and have difficulties in understanding the structure of the input sentences. We propose a novel structural loss function that better enforces the syntactic structure of the input sentence and show large performance gains in the task of 2D spatial layout prediction conditioned on text. The loss has the potential to be used in other generation tasks where a tree-like structure underlies the conditioning modality. Code, trained models and the USCOCO evaluation set are available via github.
翻訳日:2024-04-17 23:25:43 公開日:2024-04-16
# OOD一般化のための視覚言語モデルファインタニングの落とし穴を克服する

Overcoming the Pitfalls of Vision-Language Model Finetuning for OOD Generalization ( http://arxiv.org/abs/2401.15914v2 )

ライセンス: Link先を確認
Yuhang Zang, Hanlin Goh, Josh Susskind, Chen Huang, (参考訳) 既存の視覚言語モデルは、様々な視覚領域やタスクに対して強力な一般化を示す。 しかし、そのようなモデルは主にゼロショット認識をクローズドセットで行うため、設計によってオープンドメインの視覚概念を扱うのに苦労する。 近年のファインタニング手法として,ID(in-distriion)とOOD(out-of-distriion)の区別だけでなく,IDとOODの精度にもいくつかの改良が加えられている。 本稿では、視覚言語モデルにおいて、十分な微調整をした後、適切な正規化を行わず、未知のクラスの性能を低下させることなく、与えられたデータセットの既知のクラスに過度に適合することを示した。 そこで我々は,この落とし穴に対処するための新しいアプローチであるOGENを提案し,その主な焦点は,微調整モデルのOODジェネラリゼーションの改善である。 具体的には、未知のクラスのクラス名のみを使用して、OOD機能を合成するために、クラス条件フィーチャジェネレータが導入された。 このような合成された機能は未知に関する有用な知識を提供し、共同で最適化された ID と OOD データ間の決定境界を規則化するのに役立ちます。 同様に重要なことは、共同最適化中に特徴量生成モデルを正規化するための適応的な自己蒸留機構、すなわち、モデル状態間で知識を適応的に伝達して過度な適合を防止することである。 実験により,OODの一般化性能は異なる条件で向上することを確認した。 コード:https://github.com/apple/ml-ogen.com

Existing vision-language models exhibit strong generalization on a variety of visual domains and tasks. However, such models mainly perform zero-shot recognition in a closed-set manner, and thus struggle to handle open-domain visual concepts by design. There are recent finetuning methods, such as prompt learning, that not only study the discrimination between in-distribution (ID) and out-of-distribution (OOD) samples, but also show some improvements in both ID and OOD accuracies. In this paper, we first demonstrate that vision-language models, after long enough finetuning but without proper regularization, tend to overfit the known classes in the given dataset, with degraded performance on unknown classes. Then we propose a novel approach OGEN to address this pitfall, with the main focus on improving the OOD GENeralization of finetuned models. Specifically, a class-conditional feature generator is introduced to synthesize OOD features using just the class name of any unknown class. Such synthesized features will provide useful knowledge about unknowns and help regularize the decision boundary between ID and OOD data when optimized jointly. Equally important is our adaptive self-distillation mechanism to regularize our feature generation model during joint optimization, i.e., adaptively transferring knowledge between model states to further prevent overfitting. Experiments validate that our method yields convincing gains in OOD generalization performance in different settings. Code: https://github.com/apple/ml-ogen.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# SECOMP: Cプログラムの形式的セキュアコンパイル

SECOMP: Formally Secure Compilation of Compartmentalized C Programs ( http://arxiv.org/abs/2401.16277v2 )

ライセンス: Link先を確認
Jérémy Thibault, Roberto Blanco, Dongjae Lee, Sven Argo, Arthur Azevedo de Amorim, Aïna Linn Georges, Catalin Hritcu, Andrew Tolmach, (参考訳) C言語の未定義の動作は、しばしば破壊的なセキュリティ脆弱性を引き起こす。 これは、開発者が大きなプログラムを、明確に指定された特権と相互作用を持つ相互に不確実なコンパートメントに構成できるものである。 本稿では,非定義な動作のスコープが,それに遭遇して動的に妥協するコンパートメントに制限されることを保証する,マシンチェックされた証明が付属する,コンパートナライズドCコードのコンパイラであるSECOMPを紹介する。 これらの保証は、敵の文脈に対する安全性の保存として形式化され、完全な抽象化に類似したセキュアなコンパイル基準が、主流プログラミング言語でこのような強い基準が証明されたのはこれが初めてである。 これを達成するために、クロスコンパートメントインターフェースによって指定されたように、プロシージャコールとリターンを介してのみ対話できる分離されたコンパートメントでCompCert検証されたCコンパイラの言語を拡張します。 我々は、CompCertのパスと最適化、およびそれらの正当性証明を、このコンパートメント対応の設定に適用する。 次に,コンパイラの正しさをCコンパイラに拡張するために必要な,いくつかの証明工学のノベルティを含む,より大規模なセキュアなコンパイル証明の要素として使用する。

Undefined behavior in C often causes devastating security vulnerabilities. One practical mitigation is compartmentalization, which allows developers to structure large programs into mutually distrustful compartments with clearly specified privileges and interactions. In this paper we introduce SECOMP, a compiler for compartmentalized C code that comes with machine-checked proofs guaranteeing that the scope of undefined behavior is restricted to the compartments that encounter it and become dynamically compromised. These guarantees are formalized as the preservation of safety properties against adversarial contexts, a secure compilation criterion similar to full abstraction, and this is the first time such a strong criterion is proven for a mainstream programming language. To achieve this we extend the languages of the CompCert verified C compiler with isolated compartments that can only interact via procedure calls and returns, as specified by cross-compartment interfaces. We adapt the passes and optimizations of CompCert as well as their correctness proofs to this compartment-aware setting. We then use compiler correctness as an ingredient in a larger secure compilation proof that involves several proof engineering novelties, needed to scale formally secure compilation up to a C compiler.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# 限られた情報の下で操作する学習

Learning to Manipulate under Limited Information ( http://arxiv.org/abs/2401.16412v2 )

ライセンス: Link先を確認
Wesley H. Holliday, Alexander Kristoffersen, Eric Pacuit, (参考訳) 社会的選択論における古典的な結果により、合理的な選好投票法は、時には個人に不適切な選好を報告するインセンティブを与える。 このような戦略的な操作に対して、投票方法が多かれ少なかれ抵抗的である程度は、投票方法の比較において重要な考慮事項となっている。 ここでは,異なる大きさのニューラルネットワークが,他の有権者の投票方法に関して,さまざまな種類の制限のある情報を考慮し,所定の投票方法の利益性向上を学べるかどうかによって,操作に対する抵抗を測定する。 5~21人の有権者と3~6人の候補者による委員会規模の選挙において、6種類の制限情報の下で8種類の投票方法を操作するために、26のサイズの70,000以上のニューラルネットワークをトレーニングした。 ボルダのような投票手法は限られた情報を持つネットワークで高度に操作可能であるのに対して、インスタント・ランオフのような他の手法は、完全な情報を持つ理想的なマニピュレータによって非常に利益を上げているにもかかわらず、そうではない。 選挙のための2つの確率モデルについて、私たちが研究している8つの方法のうち、全体としては、Minimax と Split Cycle のコンドルセット法である。

By classic results in social choice theory, any reasonable preferential voting method sometimes gives individuals an incentive to report an insincere preference. The extent to which different voting methods are more or less resistant to such strategic manipulation has become a key consideration for comparing voting methods. Here we measure resistance to manipulation by whether neural networks of varying sizes can learn to profitably manipulate a given voting method in expectation, given different types of limited information about how other voters will vote. We trained over 70,000 neural networks of 26 sizes to manipulate against 8 different voting methods, under 6 types of limited information, in committee-sized elections with 5-21 voters and 3-6 candidates. We find that some voting methods, such as Borda, are highly manipulable by networks with limited information, while others, such as Instant Runoff, are not, despite being quite profitably manipulated by an ideal manipulator with full information. For the two probability models for elections that we use, the overall least manipulable of the 8 methods we study are Condorcet methods, namely Minimax and Split Cycle.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# ボルツマンサンプリング器の能動的学習と量子力学的精度によるポテンシャルエネルギー

Active learning of Boltzmann samplers and potential energies with quantum mechanical accuracy ( http://arxiv.org/abs/2401.16487v2 )

ライセンス: Link先を確認
Ana Molina-Taborda, Pilar Cossio, Olga Lopez-Acevedo, Marylou Gabrié, (参考訳) 分子系の関連する自由エネルギーミニマ間の一貫した統計を抽出することは、物理学、化学、生物学に不可欠である。 分子動力学(MD)シミュレーションはこのタスクに役立つが、特に量子精度を必要とするシステムでは計算コストが高い。 この課題を克服するために、深層生成モデルによる強化サンプリングと機械学習ポテンシャル(MLP)のアクティブラーニングを組み合わせたアプローチを開発する。 適応型マルコフ連鎖モンテカルロフレームワークを導入し、正規化フロー(NF)と1状態当たりのMLPのトレーニングを可能にし、ボルツマン分布への迅速な収束を実現する。 訓練されたNFモデルとMLPモデルを利用して、自由エネルギー差や光学スペクトルなどの熱力学的観測値を計算する。 本手法を用いて, 医療・触媒分野の多種多様なシステムに属する超小型の銀ナノクラスターの異性化について検討する。

Extracting consistent statistics between relevant free-energy minima of a molecular system is essential for physics, chemistry and biology. Molecular dynamics (MD) simulations can aid in this task but are computationally expensive, especially for systems that require quantum accuracy. To overcome this challenge, we develop an approach combining enhanced sampling with deep generative models and active learning of a machine learning potential (MLP). We introduce an adaptive Markov chain Monte Carlo framework that enables the training of one Normalizing Flow (NF) and one MLP per state, achieving rapid convergence towards the Boltzmann distribution. Leveraging the trained NF and MLP models, we compute thermodynamic observables such as free-energy differences or optical spectra. We apply this method to study the isomerization of an ultrasmall silver nanocluster, belonging to a set of systems with diverse applications in the fields of medicine and catalysis.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# 誤り訂正符号によるAI生成テキストのロバストなマルチビット透かし

Provably Robust Multi-bit Watermarking for AI-generated Text via Error Correction Code ( http://arxiv.org/abs/2401.16820v2 )

ライセンス: Link先を確認
Wenjie Qu, Dong Yin, Zixin He, Wei Zou, Tianyang Tao, Jinyuan Jia, Jiaheng Zhang, (参考訳) 大きな言語モデル(LLM)は、人間の言語に似たテキストを生成する優れた能力のために広くデプロイされている。 しかし、犯罪者によって偽ニュースやフィッシングメールなどの偽装コンテンツを作成するために誤用され、倫理的懸念を引き起こす可能性がある。 透かしは、LLMが生成したテキストに透かし(eg, a bit string)を埋め込むLLMの誤用を軽減するための重要なテクニックである。 これにより、LCMが生成したテキストの検出や、生成されたテキストの特定のユーザへのトレースが可能になる。 既存の透かし技法の最大の制限は、特に透かしが長い文字列の場合、テキストから正確に効率よく透かしを抽出できないことである。 このキー制限は、生成されたテキストを特定のユーザにトレースするなど、現実世界のアプリケーションへのデプロイを妨げます。 本研究は,この課題に対処するために,textbf{error-correction codes} をベースとした LLM 生成テキストに対する新しい透かし手法を提案する。 提案手法は, 対訳語/token編集(挿入, 削除, 置換)により, 透かしを正しく抽出し, 証明可能な頑健性を保証する。 このブレークスルーは、我々の広範な実験結果からも証明されている。 実験の結果,提案手法は,ベンチマークデータセットの精度とロバスト性の両方において,既存のベースラインを大幅に上回っていることがわかった。 例えば、長さ12のビット列を200トンのテキストに埋め込む場合、我々のアプローチは9,8.4 %$で、Yoo et al(最先端のベースライン)のパフォーマンスを85.6 %$で上回ります。 200語で生成したテキストに50個のトークンを注入するコピーペースト攻撃を受けると,Yoo et al のマッチングレートが 65 % 以下に低下するのに対して,本手法は 90.8 %$ の相当な一致率を維持する。

Large Language Models (LLMs) have been widely deployed for their remarkable capability to generate texts resembling human language. However, they could be misused by criminals to create deceptive content, such as fake news and phishing emails, which raises ethical concerns. Watermarking is a key technique to mitigate the misuse of LLMs, which embeds a watermark (e.g., a bit string) into a text generated by a LLM. Consequently, this enables the detection of texts generated by a LLM as well as the tracing of generated texts to a specific user. The major limitation of existing watermark techniques is that they cannot accurately or efficiently extract the watermark from a text, especially when the watermark is a long bit string. This key limitation impedes their deployment for real-world applications, e.g., tracing generated texts to a specific user. This work introduces a novel watermarking method for LLM-generated text grounded in \textbf{error-correction codes} to address this challenge. We provide strong theoretical analysis, demonstrating that under bounded adversarial word/token edits (insertion, deletion, and substitution), our method can correctly extract watermarks, offering a provable robustness guarantee. This breakthrough is also evidenced by our extensive experimental results. The experiments show that our method substantially outperforms existing baselines in both accuracy and robustness on benchmark datasets. For instance, when embedding a bit string of length 12 into a 200-token generated text, our approach attains an impressive match rate of $98.4\%$, surpassing the performance of Yoo et al. (state-of-the-art baseline) at $85.6\%$. When subjected to a copy-paste attack involving the injection of 50 tokens to generated texts with 200 words, our method maintains a substantial match rate of $90.8\%$, while the match rate of Yoo et al. diminishes to below $65\%$.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# 速度超過と総加速度--エンタングルメントに対する運動論的アプローチ

Speed excess and total acceleration: a kinematical approach to entanglement ( http://arxiv.org/abs/2401.17427v2 )

ライセンス: Link先を確認
C. Chryssomalakos, A. G. Flores-Delgado, E. Guzmán-González, L. Hanotel, E. Serrano-Ensástiga, (参考訳) スピン状態の総分散の概念は、3つの直交軸に沿ったスピン射影測定のばらつきの平均として定義され、また全ての回転軸上で平均化された射影空間における状態の回転速度を与える。 この量に対して、システム構成の下で加算法則を計算し、分離可能な状態の場合、単純なピタゴラス形式であることを示す。 絡み合いの存在下では, 複合状態は「その部分よりも速く回転し, 絡み合いとの相関関係のキネマティックな起源を明らかにする。 回転状態と混合状態の両方について、回転状態の加速度に関する同様の定義を解析し、その関係を幅広い絡み合い関連測度で数値的に探究する。

We show that the concept of total variance of a spin state, defined as the average of the variances of spin projection measurements along three orthogonal axes, also gives the rotational speed of the state in projective space, averaged over all rotation axes. We compute the addition law, under system composition, for this quantity and find that, in the case of separable states, it is of simple pythagorean form. In the presence of entanglement, we find that the composite state "rotates faster than its parts", thus unveiling a kinematical origin for the correlation of total variance with entanglement. We analyze a similar definition for the acceleration of a state under rotations, for both pure and mixed states, and probe numerically its relation with a wide array of entanglement related measures.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# Pixel to Elevation: 自動オフロードナビゲーションのための画像を用いた長距離標高マップの学習

Pixel to Elevation: Learning to Predict Elevation Maps at Long Range using Images for Autonomous Offroad Navigation ( http://arxiv.org/abs/2401.17484v2 )

ライセンス: Link先を確認
Chanyoung Chung, Georgios Georgakis, Patrick Spieler, Curtis Padgett, Shehryar Khattak, (参考訳) 長距離での地形トポロジーの理解は、特に高速での航行において、オフロードロボットミッションの成功に不可欠である。 現在幾何学的マッピングに大きく依存しているLiDARセンサーは、より遠くのマッピングでスパース測定を行う。 この課題に対処するために,車載エゴセントリック画像のみをリアルタイムに利用して,長距離の地形標高マップを予測可能な,新しい学習ベースアプローチを提案する。 提案手法は3つの要素から構成される。 まず, トランスフォーマーをベースとしたエンコーダを導入し, エゴセントリックな視線と, 以前の鳥眼の視線高度マップの予測との相互関係を学習する。 第2に,多視点視覚画像特徴を有する複雑な非構造地形上での3次元車両の姿勢認識型位置符号化を提案する。 最後に、下流のナビゲーション作業を容易にするために、標高マップ予測間の時間的整合性を改善するために、歴史を付加した学習可能なマップ埋め込みを提案する。 実世界のオフロード駆動データを用いて,複雑・非構造地形における自律型オフロードロボットナビゲーションの適用性について実験的に検証した。 さらに、この手法は現在の最先端手法と比較して質的かつ定量的に比較される。 大規模フィールド実験により, 地形の高度を正確に予測し, 地形の全体像を長距離で効果的に把握し, ベースラインモデルを超えていることが示された。 最後に,提案手法の重要成分の影響を強調・理解し,オフロードロボットナビゲーション能力を向上させるための適合性を検証するためにアブレーション研究を行った。

Understanding terrain topology at long-range is crucial for the success of off-road robotic missions, especially when navigating at high-speeds. LiDAR sensors, which are currently heavily relied upon for geometric mapping, provide sparse measurements when mapping at greater distances. To address this challenge, we present a novel learning-based approach capable of predicting terrain elevation maps at long-range using only onboard egocentric images in real-time. Our proposed method is comprised of three main elements. First, a transformer-based encoder is introduced that learns cross-view associations between the egocentric views and prior bird-eye-view elevation map predictions. Second, an orientation-aware positional encoding is proposed to incorporate the 3D vehicle pose information over complex unstructured terrain with multi-view visual image features. Lastly, a history-augmented learn-able map embedding is proposed to achieve better temporal consistency between elevation map predictions to facilitate the downstream navigational tasks. We experimentally validate the applicability of our proposed approach for autonomous offroad robotic navigation in complex and unstructured terrain using real-world offroad driving data. Furthermore, the method is qualitatively and quantitatively compared against the current state-of-the-art methods. Extensive field experiments demonstrate that our method surpasses baseline models in accurately predicting terrain elevation while effectively capturing the overall terrain topology at long-ranges. Finally, ablation studies are conducted to highlight and understand the effect of key components of the proposed approach and validate their suitability to improve offroad robotic navigation capabilities.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# 超小モード体積フォトニック結晶の設計と応用における限界

Limitations in design and applications of ultra-small mode volume photonic crystals ( http://arxiv.org/abs/2402.00363v2 )

ライセンス: Link先を確認
Rubaiya Emran, Michelle Chalupnik, Erik N. Knall, Ralf Riedinger, Cleaven Chia, Marko Loncar, (参考訳) 超小モード体積ナノフォトニック結晶キャビティは、キャビティ量子力学系におけるカップリング率を高める強力なツールとして提案されている。 しかし、量子情報応用におけるそれらの採用はいまだ解明されていない。 本研究では,低モードボリューム共振器の設計選択が量子光学実験における有用性に与える影響について検討し,解析する。 ダイヤモンド中の低モード体積ボウティキャビティのバンド構造と損失率を分析し,キャビティ・エミッタ結合強度と損失率の独立設計制御を実証した。 さらに, ダイヤモンド中のシリコン空孔中心を模擬エミッタとして使用し, 配置不整合の影響について検討した。 また, 従来のフォトニック結晶と比較して, 超小径キャビティの設計の複雑さが著しく増大するのに対して, 光子回収効率と不明瞭性に対する利点は限定的であることがわかった。 超小型モードの体積設計は、今後の量子ネットワークにとって大きな関心を持つ分散スピン光子相互作用に主に関心があると結論付けている。

Ultra-small mode volume nanophotonic crystal cavities have been proposed as powerful tools for increasing coupling rates in cavity quantum electrodynamics systems. However, their adoption in quantum information applications remains elusive. In this work, we investigate possible reasons why, and analyze the impact of different low mode volume resonator design choices on their utility in quantum optics experiments. We analyze band structure features and loss rates of low mode volume bowtie cavities in diamond and demonstrate independent design control over cavity-emitter coupling strength and loss rates. Further, using silicon vacancy centers in diamond as exemplary emitters, we investigate the influence of placement imprecision. We find that the benefit on photon collection efficiency and indistinguishability is limited, while the fabrication complexity of ultra-small cavity designs increases substantially compared to conventional photonic crystals. We conclude that ultra-small mode volume designs are primarily of interest for dispersive spin-photon interactions, which are of great interest for future quantum networks.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# ANLS* -- 生成可能な大規模言語モデルのためのユニバーサルドキュメント処理メトリクス

ANLS* -- A Universal Document Processing Metric for Generative Large Language Models ( http://arxiv.org/abs/2402.03848v4 )

ライセンス: Link先を確認
David Peer, Philemon Schöpf, Volckmar Nebendahl, Alexander Rietzler, Sebastian Stabinger, (参考訳) 伝統的に、差別モデルが文書分類や情報抽出といったタスクの主要な選択肢となっている。 これらのモデルは、限定された定義済みのクラスに該当する予測を行い、バイナリ真または偽の評価を容易にし、F1スコアのようなメトリクスの直接計算を可能にする。 しかし、ジェネレーティブな大規模言語モデル(GLLM)の最近の進歩は、下流のデータセットや計算コストのかかる微調整の必要性をなくすため、ゼロショット能力の強化により、この分野のシフトを引き起こしている。 しかし、GLLM の評価は、識別モデルに使用される二項真偽の評価が GLLM の予測には適用できないため、課題となる。 本稿では,情報抽出や分類タスクを含む多種多様なタスクを評価するために,ANLS*と呼ばれる生成モデルのための新しい指標を提案する。 ANLS*メトリックは、既存のANLSメトリクスをドロップ・イン・リプレースとして拡張し、以前報告されたANLSスコアと互換性がある。 また,ANLS*メトリックを用いた7つの異なるデータセット,6つの異なるGLLM,3つの異なるプロンプト手法の評価を行い,提案手法の重要性を実証した。 また、SFTと呼ばれる文書のプロンプトを生成する新しい手法を、LATINなどの他のプロンプト技術に対してベンチマークする。 35件中27件では、SFTは他のテクニックよりも優れ、最先端の技術を改善している。 ソースはhttps://github.com/deepopinion/anls_star_metricにある。

Traditionally, discriminative models have been the predominant choice for tasks like document classification and information extraction. These models make predictions that fall into a limited number of predefined classes, facilitating a binary true or false evaluation and enabling the direct calculation of metrics such as the F1 score. However, recent advancements in generative large language models (GLLMs) have prompted a shift in the field due to their enhanced zero-shot capabilities, which eliminate the need for a downstream dataset and computationally expensive fine-tuning. However, evaluating GLLMs presents a challenge as the binary true or false evaluation used for discriminative models is not applicable to the predictions made by GLLMs. This paper introduces a new metric for generative models called ANLS* for evaluating a wide variety of tasks, including information extraction and classification tasks. The ANLS* metric extends existing ANLS metrics as a drop-in-replacement and is still compatible with previously reported ANLS scores. An evaluation of 7 different datasets, 6 different GLLMs and 3 different prompting methods using the ANLS* metric is also provided, demonstrating the importance of the proposed metric. We also benchmark a novel approach to generate prompts for documents, called SFT, against other prompting techniques such as LATIN. In 27 out of 35 cases, SFT outperforms other techniques and improves the state-of-the-art, sometimes by as much as $18$ percentage points. Sources are available at https://github.com/deepopinion/anls_star_metric
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# 表面符号のためのブロックBPデコーダ

A blockBP decoder for the surface code ( http://arxiv.org/abs/2402.04834v2 )

ライセンス: Link先を確認
Aviad Kaufmann, Itai Arad, (参考訳) 本稿では,テンソル・ネットワーク・デコーダの精度と信念伝達アルゴリズムの効率性と並列性を組み合わせた表面符号のための新しいデコーダを提案する。 我々の主案は、テンソル・ネットワーク・デコーダの高価なテンソル・ネットワークの縮約ステップを、信仰伝播に基づく最近の近似縮約アルゴリズムであるブロックBPアルゴリズムに置き換えることである。 したがって、デコーダは、縮退した最大可能性復号化フレームワークで機能する信念伝播復号器である。 従来のテンソル・ネットワークデコーダとは異なり、我々のアルゴリズムは効率的に並列に動作し、したがってリアルタイムデコーダに適している。 我々は,デコーダを数値的にテストし,格子サイズや雑音レベルが広い場合に,最小ウェイト・パーフェクト・マッチ(MWPM)デコーダよりも優れた論理誤差の確率を与えることを示した。

We present a new decoder for the surface code, which combines the accuracy of the tensor-network decoders with the efficiency and parallelism of the belief-propagation algorithm. Our main idea is to replace the expensive tensor-network contraction step in the tensor-network decoders with the blockBP algorithm - a recent approximate contraction algorithm, based on belief propagation. Our decoder is therefore a belief-propagation decoder that works in the degenerate maximal likelihood decoding framework. Unlike conventional tensor-network decoders, our algorithm can run efficiently in parallel, and may therefore be suitable for real-time decoding. We numerically test our decoder and show that for a large range of lattice sizes and noise levels it delivers a logical error probability that outperforms the Minimal-Weight-Perfect-Matching (MWPM) decoder, sometimes by more than an order of magnitude.
翻訳日:2024-04-17 23:15:44 公開日:2024-04-16
# LLM生成符号に対するレジリエントな透かし

Resilient Watermarking for LLM-Generated Codes ( http://arxiv.org/abs/2402.07518v2 )

ライセンス: Link先を確認
Boquan Li, Mengdi Zhang, Peixin Zhang, Jun Sun, Xingmei Wang, Zijian Liu, Tianzi Zhang, (参考訳) 大規模言語モデルの開発により、複数のAIがコード生成(ChatGPTやStarCoderなど)で利用可能になり、広く採用されている。 コードの一部がAIによって生成されるかどうか、さらにどのAIが著者であるかを知ることが望ましいことが多い。 例えば、あるバージョンのAIが脆弱なコードを生成することが知られている場合、特に作者を知ることが重要です。 既存のアプローチは、透かしコードの方がテキストデータの透かしよりも難しいため、広く使われているコードリファクタリングメソッドを通じて比較的簡単にコードを変更することができるため、満足できない。 本稿では,AI生成コードの透かし手法であるACW(AI Code Watermarking)を提案する。 ACWのキーとなる考え方は、慎重に設計されたセマンティック保存、等質なコード変換の集合を選択的に適用することであり、その存在(または欠如)により、透かしの存在を決定できる。 トレーニングや微調整を必要とせず、ブラックボックス方式で機能するため、効率的である。 透かしは、一般的なコードリファクタリングメソッドで簡単に取り除かれたり、改ざんしたりできないため、耐性がある。 実験の結果,ACWは有効であり(高い精度,真正,偽陽性),回復力があり,既存手法よりも優れていた。

With the development of large language models, multiple AIs are now made available for code generation (such as ChatGPT and StarCoder) and are adopted widely. It is often desirable to know whether a piece of code is generated by AI, and furthermore, which AI is the author. For instance, if a certain version of AI is known to generate vulnerable codes, it is particularly important to know the creator. Existing approaches are not satisfactory as watermarking codes are more challenging compared to watermarking text data, as codes can be altered with relative ease via widely-used code refactoring methods. In this work, we propose ACW (AI Code Watermarking), a novel method for watermarking AI-generated codes. The key idea of ACW is to selectively apply a set of carefully-designed semantic-preserving, idempotent code transformations, whose presence (or absence) allows us to determine the existence of the watermark. It is efficient as it requires no training or fine-tuning and works in a black-box manner. It is resilient as the watermark cannot be easily removed or tampered through common code refactoring methods. Our experimental results show that ACW is effective (i.e., achieving high accuracy, true positive rates and false positive rates) and resilient, significantly outperforming existing approaches.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-16
# 人間とAIのコラボレーションを妨げる過信と不信のAI

Overconfident and Unconfident AI Hinder Human-AI Collaboration ( http://arxiv.org/abs/2402.07632v2 )

ライセンス: Link先を確認
Jingshu Li, Yitian Yang, Renwen Zhang, Yi-chieh Lee, (参考訳) AI透明性は、責任あるAIデプロイメントと効果的な人間とAIのコラボレーションの中心的な柱である。 重要なアプローチは、AIの信頼性レベルやその正当性(CL)をユーザに示すなど、不確実性を伝えることである。 しかしながら、これらの信頼度は、実際のCLを過度に見積もるか過小評価するか、人間とAIのコラボレーションにリスクと害を与えている。 本研究は,AIに対するユーザの信頼度,AIアドバイスの採用,コラボレーション結果に及ぼすAI信頼度の影響について検討する。 さらに,信頼性校正支援を通じて達成された透明性の向上が,これらの結果に与える影響について検討した。 以上の結果から,AIの信頼性の低下は,過信AIの誤用と不信AIの誤用の両方を招き,人間とAIのコラボレーションの結果を妨げることが明らかとなった。 信頼キャリブレーションサポートの欠如は、不正な信頼の検出を難しくし、AIの誤用と利用を促進させることで、この問題を悪化させる。 逆に、信頼度校正支援は、不正の認識と誤用を減らすのに役立つが、不信を育み、AIを悪用する。 我々の研究は、人間とAIのコラボレーションを強化するためのAI信頼度校正の重要性を強調し、AI設計と規制の方向性を提案する。

AI transparency is a central pillar of responsible AI deployment and effective human-AI collaboration. A critical approach is communicating uncertainty, such as displaying AI's confidence level, or its correctness likelihood (CL), to users. However, these confidence levels are often uncalibrated, either overestimating or underestimating actual CL, posing risks and harms to human-AI collaboration. This study examines the effects of uncalibrated AI confidence on users' trust in AI, AI advice adoption, and collaboration outcomes. We further examined the impact of increased transparency, achieved through trust calibration support, on these outcomes. Our results reveal that uncalibrated AI confidence leads to both the misuse of overconfident AI and disuse of unconfident AI, thereby hindering outcomes of human-AI collaboration. Deficiency of trust calibration support exacerbates this issue by making it harder to detect uncalibrated confidence, promoting misuse and disuse of AI. Conversely, trust calibration support aids in recognizing uncalibration and reducing misuse, but it also fosters distrust and causes disuse of AI. Our findings highlight the importance of AI confidence calibration for enhancing human-AI collaboration and suggest directions for AI design and regulation.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-16
# 大規模言語ユーザインタフェース:LLMを利用した音声対話型ユーザインタフェース

Large Language User Interfaces: Voice Interactive User Interfaces powered by LLMs ( http://arxiv.org/abs/2402.07938v2 )

ライセンス: Link先を確認
Syed Mekael Wasti, Ken Q. Pu, Ali Neshati, (参考訳) LLM(Large Language Models)の進化は、論理的推論と自然言語理解に顕著な能力を示した。 これらの機能は、意味論的およびテキスト的に複雑な問題をモデル化するソリューションで活用することができる。 本稿では,ユーザとユーザインターフェース(UI)の仲介として機能し,動的かつリアルタイムなインタラクションを実現するフレームワークの構築に向けた取り組みについて述べる。 アノテーションの形でUIコンポーネントのテキストセマンティックマッピングに立つシステムを採用している。 これらのマッピングは、エージェントベースのプロンプトバックエンドエンジンへの補足として、カスタムデータ構造に格納され、解析され、スケールされます。 テキストセマンティックマッピングを利用することで、各コンポーネントはその役割をエンジンに説明できるだけでなく、期待もできる。 ユーザとコンポーネントの両方のニーズを理解することで、LLMエンジンは最も適切なアプリケーションを分類し、関連するパラメータを抽出し、その後、ユーザの期待するアクションの正確な予測を実行できます。 このような統合は、静的ユーザインターフェースを高度に動的で適応可能なソリューションに進化させ、インテリジェントでレスポンシブなユーザエクスペリエンスの新たなフロンティアを導入します。

The evolution of Large Language Models (LLMs) has showcased remarkable capacities for logical reasoning and natural language comprehension. These capabilities can be leveraged in solutions that semantically and textually model complex problems. In this paper, we present our efforts toward constructing a framework that can serve as an intermediary between a user and their user interface (UI), enabling dynamic and real-time interactions. We employ a system that stands upon textual semantic mappings of UI components, in the form of annotations. These mappings are stored, parsed, and scaled in a custom data structure, supplementary to an agent-based prompting backend engine. Employing textual semantic mappings allows each component to not only explain its role to the engine but also provide expectations. By comprehending the needs of both the user and the components, our LLM engine can classify the most appropriate application, extract relevant parameters, and subsequently execute precise predictions of the user's expected actions. Such an integration evolves static user interfaces into highly dynamic and adaptable solutions, introducing a new frontier of intelligent and responsive user experiences.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-16
# 高次元システムにおける効率的な推論のためのガウスアンサンブル信念伝播

Gaussian Ensemble Belief Propagation for Efficient Inference in High-Dimensional Systems ( http://arxiv.org/abs/2402.08193v2 )

ライセンス: Link先を確認
Dan MacKinlay, Russell Tsuchida, Dan Pagendam, Petra Kuhnert, (参考訳) 高次元モデルにおける効率的な推論は、マシンラーニングにおいて依然として中心的な課題である。 本稿では,Gaussian Ensemble Belief Propagation (GEnBP)アルゴリズム,Ensemble KalmanフィルタとGaBP法の融合について述べる。 GEnBPは、グラフィックモデル構造で低ランクのローカルメッセージを渡すことでアンサンブルを更新する。 この組み合わせはそれぞれの方法から好ましい品質を継承する。 アンサンブル技術により、GEnBPは高次元状態、パラメータ、複雑なノイズ、ブラックボックス生成プロセスを扱うことができる。 グラフィカルモデル構造におけるローカルメッセージの使用は、このアプローチが分散コンピューティングに適していることを保証し、複雑な依存構造を効率的に扱うことができる。 GEnBPは、アンサンブルサイズが推論次元よりもかなり小さい場合に特に有利である。 このシナリオは時空間モデリング、画像処理、物理モデル反転といった分野にしばしば現れる。 GEnBPは、連立学習システムパラメータ、観測パラメータ、潜時状態変数などの一般的な問題構造に適用できる。

Efficient inference in high-dimensional models remains a central challenge in machine learning. This paper introduces the Gaussian Ensemble Belief Propagation (GEnBP) algorithm, a fusion of the Ensemble Kalman filter and Gaussian belief propagation (GaBP) methods. GEnBP updates ensembles by passing low-rank local messages in a graphical model structure. This combination inherits favourable qualities from each method. Ensemble techniques allow GEnBP to handle high-dimensional states, parameters and intricate, noisy, black-box generation processes. The use of local messages in a graphical model structure ensures that the approach is suited to distributed computing and can efficiently handle complex dependence structures. GEnBP is particularly advantageous when the ensemble size is considerably smaller than the inference dimension. This scenario often arises in fields such as spatiotemporal modelling, image processing and physical model inversion. GEnBP can be applied to general problem structures, including jointly learning system parameters, observation parameters, and latent state variables.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-16
# 共感的対話応答の多次元評価

Multi-dimensional Evaluation of Empathetic Dialog Responses ( http://arxiv.org/abs/2402.11409v2 )

ライセンス: Link先を確認
Zhichao Xu, Jiepu Jiang, (参考訳) 共感は効果的な会話コミュニケーションに不可欠である。 会話の共感を測る以前の取り組みは、主にコミュニケーションの意図を表現することに焦点を当てていた。 しかし、これらの作業は、会話が話者とリスナーの両方のコラボレーションでもあるという事実を無視している。 対照的に、話者の視点から表現された意図と聴取者の視点から知覚された共感の両方を測定するための多次元共感評価フレームワークを提案する。 提案手法を内部の顧客サービス対話の分析に適用する。 両次元(表現的意図型と認識的共感)は相互接続であり,認識的共感は対話満足度と高い相関性を有する。 アノテーションのコストを削減するために,LLMや言語モデルに基づく分類器の訓練など,会話の共感を自動的に計測するさまざまな選択肢を探索する。 我々の実験は、GPT-4やFlanファミリーモデルのような人気モデルでさえも、パブリックデータセットと内部データセットの両方で比較的低性能であることを示す。 対照的に、Flan-T5ファミリーモデルに基づく命令精細分類器は、事前の作業や競争ベースラインよりも優れている。 我々は,命令微調整手法の強靭な性能についてより深い知見を得るために,詳細なアブレーション研究を行う。

Empathy is critical for effective and satisfactory conversational communication. Prior efforts to measure conversational empathy mostly focus on expressed communicative intents -- that is, the way empathy is expressed. Yet, these works ignore the fact that conversation is also a collaboration involving both speakers and listeners. In contrast, we propose a multi-dimensional empathy evaluation framework to measure both expressed intents from the speaker's perspective and perceived empathy from the listener's perspective. We apply our proposed framework to analyze our internal customer-service dialogue. We find the two dimensions (expressed intent types and perceived empathy) are inter-connected, and perceived empathy has a high correlation with dialogue satisfaction levels. To reduce the annotation cost, we explore different options to automatically measure conversational empathy: prompting LLMs and training language model-based classifiers. Our experiments show that prompting methods with even popular models like GPT-4 and Flan family models perform relatively poorly on both public and our internal datasets. In contrast, instruction-finetuned classifiers based on Flan-T5 family models outperform prior works and competitive baselines. We conduct a detailed ablation study to give more insights into instruction finetuning method's strong performance.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-16
# 偏見からパリティへ:大規模言語モデルの単語埋め込みを嫌う新しいアプローチ

From Prejudice to Parity: A New Approach to Debiasing Large Language Model Word Embeddings ( http://arxiv.org/abs/2402.11512v3 )

ライセンス: Link先を確認
Aishik Rakshit, Smriti Singh, Shuvam Keshari, Arijit Ghosh Chowdhury, Vinija Jain, Aman Chadha, (参考訳) 埋め込みは、大規模言語モデルの有効性において重要な役割を果たす。 これらは、これらのモデルが文脈的関係を把握し、よりニュアンスな言語理解を育み、その結果、人間の言語に対する根本的な理解を必要とする複雑なタスクの多さで顕著に機能する基盤岩である。 これらの埋め込み自体がしばしばバイアスを反映または表象していることを考えると、これらのモデルが必然的にこのバイアスを学習する可能性があることは理にかなっている。 本研究では,ニューラルネットワークを用いて'ソフトデバイアス'を実行するアルゴリズムであるDeepSoftDebiasを提案する。 我々はこのアルゴリズムを様々なSOTAデータセット、精度メトリクス、難解なNLPタスクで徹底的に評価する。 DeepSoftDebiasは、性別、人種、宗教の偏見を減らし、最先端の手法よりも優れています。

Embeddings play a pivotal role in the efficacy of Large Language Models. They are the bedrock on which these models grasp contextual relationships and foster a more nuanced understanding of language and consequently perform remarkably on a plethora of complex tasks that require a fundamental understanding of human language. Given that these embeddings themselves often reflect or exhibit bias, it stands to reason that these models may also inadvertently learn this bias. In this work, we build on the seminal previous work and propose DeepSoftDebias, an algorithm that uses a neural network to perform 'soft debiasing'. We exhaustively evaluate this algorithm across a variety of SOTA datasets, accuracy metrics, and challenging NLP tasks. We find that DeepSoftDebias outperforms the current state-of-the-art methods at reducing bias across gender, race, and religion.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-16
# 失敗から学ぶ:大規模言語モデルをエージェントとして微調整する際の否定的な例を統合する

Learning From Failure: Integrating Negative Examples when Fine-tuning Large Language Models as Agents ( http://arxiv.org/abs/2402.11651v2 )

ライセンス: Link先を確認
Renxi Wang, Haonan Li, Xudong Han, Yixuan Zhang, Timothy Baldwin, (参考訳) 大規模言語モデル(LLM)は、検索エンジンなどのツールを介して環境と対話するエージェントとして機能することに成功した。 しかし、LLMはトレーニングやアライメントのツール使用ではなく、言語生成に最適化されており、エージェントとしての有効性を制限している。 この問題を解決するために、従来の研究はLLMと環境間の相互作用軌跡を初めて収集し、タスクを完了した軌跡のみを使用して小さなモデルを微調整し、微調整データの不足と、それを困難かつ安価に取得した。 トラジェクトリが失敗すると、データやリソースが大幅に浪費され、微調整時に最適化パスが制限される。 本稿では, 軌道の失敗は貴重な洞察を与え, LLMは適切な品質制御と微調整戦略によってこれらの軌道から学習することができることを論じる。 学習中に軌道を成功させるかどうかをモデルに示す接頭辞や接尾辞を追加するだけで、数学的推論、マルチホップ質問応答、戦略的質問応答タスクにおいて、モデル性能を大きく向上させることができる。 さらに推論結果を解析し,提案手法が軌道上での有意な情報と誤りとのトレードオフをより良くすることを示した。 我々の知る限り、我々は、エージェント・チューニングのシナリオにおいて、負の軌跡の価値とその応用を初めて示す。 本研究は,より優れたエージェントチューニング手法と低リソースデータ利用手法を開発するためのガイダンスを提供する。

Large language models (LLMs) have achieved success in acting as agents, which interact with environments through tools such as search engines. However, LLMs are optimized for language generation instead of tool use during training or alignment, limiting their effectiveness as agents. To resolve this problem, previous work has first collected interaction trajectories between LLMs and environments, using only trajectories that successfully finished the task to fine-tune smaller models, making fine-tuning data scarce and acquiring it both difficult and costly. Discarding failed trajectories also leads to significant wastage of data and resources and limits the possible optimization paths during fine-tuning. In this paper, we argue that unsuccessful trajectories offer valuable insights, and LLMs can learn from these trajectories through appropriate quality control and fine-tuning strategies. By simply adding a prefix or suffix that tells the model whether to generate a successful trajectory during training, we improve model performance by a large margin on mathematical reasoning, multi-hop question answering, and strategic question answering tasks. We further analyze the inference results and find that our method provides a better trade-off between valuable information and errors in unsuccessful trajectories. To our knowledge, we are the first to demonstrate the value of negative trajectories and their application in agent-tunning scenarios. Our findings offer guidance for developing better agent-tuning methods and low-resource data usage techniques.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-16
# ジェネレーションの検証 - スマート並列オートコレクトデコーディングによる大規模言語モデル推論の高速化

Generation Meets Verification: Accelerating Large Language Model Inference with Smart Parallel Auto-Correct Decoding ( http://arxiv.org/abs/2402.11809v2 )

ライセンス: Link先を確認
Hanling Yi, Feng Lin, Hongbin Li, Peiyang Ning, Xiaotian Yu, Rong Xiao, (参考訳) 本研究の目的は,数十億のパラメータを持つ大規模言語モデル(LLM)の推論速度を高速化することである。 本稿では, LLMのロスレスアクセラレーションを実現するための革新的なアプローチであるSPACE(textbf{S}mart \textbf{P}arallel \textbf{A}uto-\textbf{C}orrect d\textbf{E}coding)を提案する。 半自己回帰推論と投機的復号機能を統合することにより、SPACEはトークン生成と検証を並列化する自動回帰LDMを独自に実現している。 これは、既存のLLMに複数のトークンを同時に予測する能力を持たせる、半自己回帰制御された微調整プロセスによって実現される。 さらに、自動訂正復号アルゴリズムは、1つのモデル呼び出し内でトークンシーケンスの同時生成と検証を容易にする。 幅広い LLM の実験を通じて、SPACE は出力品質を維持しながら、HumanEval-X 上の2.7x-4.0x までの推論速度を実証した。

This research aims to accelerate the inference speed of large language models (LLMs) with billions of parameters. We propose \textbf{S}mart \textbf{P}arallel \textbf{A}uto-\textbf{C}orrect d\textbf{E}coding (SPACE), an innovative approach designed for achieving lossless acceleration of LLMs. By integrating semi-autoregressive inference and speculative decoding capabilities, SPACE uniquely enables autoregressive LLMs to parallelize token generation and verification. This is realized through a specialized semi-autoregressive supervised fine-tuning process that equips existing LLMs with the ability to simultaneously predict multiple tokens. Additionally, an auto-correct decoding algorithm facilitates the simultaneous generation and verification of token sequences within a single model invocation. Through extensive experiments on a range of LLMs, SPACE has demonstrated inference speedup ranging from 2.7x-4.0x on HumanEval-X while maintaining output quality.
翻訳日:2024-04-17 23:05:59 公開日:2024-04-16
# Wi-FiネットワークにおけるオフパスTCPハイジャック:パケットサイズサイドチャネル攻撃

Off-Path TCP Hijacking in Wi-Fi Networks: A Packet-Size Side Channel Attack ( http://arxiv.org/abs/2402.12716v3 )

ライセンス: Link先を確認
Ziqiang Wang, Xuewei Feng, Qi Li, Kun Sun, Yuxiang Yang, Mengyuan Li, Ke Xu, Jianping Wu, (参考訳) 本稿では、Wi-Fiネットワークにおける基本的なサイドチャネル、特に観測可能なフレームサイズを明らかにし、攻撃者がTCPハイジャック攻撃を行うために利用することができる。 各種セキュリティ機構(WEP,WPA2/WPA3)がWi-Fiネットワークを保護するために実装されているにもかかわらず,オフパス攻撃者は,フレームサイズ側チャネルから十分な情報を抽出して,被害者のTCP接続を乗っ取ることができる。 我々のサイドチャネルアタックは2つの重要な発見に基づいている。 (i)TCP受信機が生成する応答パケット(eg,ACK,RST)はサイズによって異なる。 (II)これらの応答パケットを含む暗号化フレームは、一貫した、識別可能なサイズである。 被害者の暗号化されたフレームのサイズを観察することで、攻撃者は被害者のTCP接続を検出しハイジャックすることができる。 我々は,このサイドチャネル攻撃の有効性を,SSH DoSとWebトラフィック操作という2つのケーススタディを通じて検証した。 正確には、攻撃は被害者のSSHセッションを19秒で終了させ、悪意のあるデータを被害者のWebトラフィックに28秒以内に注入することができる。 さらに,実際のWi-Fiネットワークに対する攻撃の影響を評価するため,広範囲な測定を行った。 私たちは9つの有名なベンダーから人気の高い30台のワイヤレスルータをテストしています。 また、実世界の80のWi-Fiネットワークで攻撃を実行し、75 (93.75%)のWi-Fiネットワークで被害者のTCP接続を乗っ取ることに成功した。 我々は、Wi-Fi Allianceの脆弱性を責任を持って開示し、この問題に対処するためのいくつかの緩和戦略を提案しました。

In this paper, we unveil a fundamental side channel in Wi-Fi networks, specifically the observable frame size, which can be exploited by attackers to conduct TCP hijacking attacks. Despite the various security mechanisms (e.g., WEP and WPA2/WPA3) implemented to safeguard Wi-Fi networks, our study reveals that an off path attacker can still extract sufficient information from the frame size side channel to hijack the victim's TCP connection. Our side channel attack is based on two significant findings: (i) response packets (e.g., ACK and RST) generated by TCP receivers vary in size, and (ii) the encrypted frames containing these response packets have consistent and distinguishable sizes. By observing the size of the victim's encrypted frames, the attacker can detect and hijack the victim's TCP connections. We validate the effectiveness of this side channel attack through two case studies, i.e., SSH DoS and web traffic manipulation. Precisely, our attack can terminate the victim's SSH session in 19 seconds and inject malicious data into the victim's web traffic within 28 seconds. Furthermore, we conduct extensive measurements to evaluate the impact of our attack on real-world Wi-Fi networks. We test 30 popular wireless routers from 9 well-known vendors, and none of these routers can protect victims from our attack. Besides, we implement our attack in 80 real-world Wi-Fi networks and successfully hijack the victim's TCP connections in 75 (93.75%) evaluated Wi-Fi networks. We have responsibly disclosed the vulnerability to the Wi-Fi Alliance and proposed several mitigation strategies to address this issue.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# 非IIDデータサイロにおけるフェデレーションマルチタスク学習 : 実験的検討

Federated Multi-Task Learning on Non-IID Data Silos: An Experimental Study ( http://arxiv.org/abs/2402.12876v2 )

ライセンス: Link先を確認
Yuwen Yang, Yuxiang Lu, Suizhi Huang, Shalayiding Sirejiding, Hongtao Lu, Yue Ding, (参考訳) FMTL(Federated Multi-Task Learning)アプローチは、フェデレートラーニング(FL)とマルチタスクラーニング(MTL)の利点を統合し、マルチタスクラーニングデータセット上で協調的なモデルトレーニングを可能にする。 しかし、FLとMTLのユニークな特徴を統合した総合的な評価手法が現在、この分野に存在しない。 本稿では,FMTLパラダイムの体系的評価のための新しいフレームワークFMTL-Benchを導入することで,この空白を埋める。 このベンチマークは、データ、モデル、最適化アルゴリズムの様々な側面をカバーし、7つの比較実験で構成され、非独立で同一に分散された(Non-IID)データパーティショニングシナリオをカプセル化している。 本稿では,多様な指標のベースラインを比較するための体系的なプロセスを提案し,通信費,時間,エネルギー消費に関するケーススタディを実施している。 本研究の目的は,既存のベースライン手法の強度と限界に関する貴重な知見を提供することであり,実践シナリオにおける最適なFMTLアプリケーションに関する議論の継続に寄与することである。 ソースコードはhttps://github.com/youngfish42/FMTL-Benchmark で確認できる。

The innovative Federated Multi-Task Learning (FMTL) approach consolidates the benefits of Federated Learning (FL) and Multi-Task Learning (MTL), enabling collaborative model training on multi-task learning datasets. However, a comprehensive evaluation method, integrating the unique features of both FL and MTL, is currently absent in the field. This paper fills this void by introducing a novel framework, FMTL-Bench, for systematic evaluation of the FMTL paradigm. This benchmark covers various aspects at the data, model, and optimization algorithm levels, and comprises seven sets of comparative experiments, encapsulating a wide array of non-independent and identically distributed (Non-IID) data partitioning scenarios. We propose a systematic process for comparing baselines of diverse indicators and conduct a case study on communication expenditure, time, and energy consumption. Through our exhaustive experiments, we aim to provide valuable insights into the strengths and limitations of existing baseline methods, contributing to the ongoing discourse on optimal FMTL application in practical scenarios. The source code can be found on https://github.com/youngfish42/FMTL-Benchmark .
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# Big Data Medical Imaging における低域および局所低域マトリックス近似の体系的検討

A Systematic Review of Low-Rank and Local Low-Rank Matrix Approximation in Big Data Medical Imaging ( http://arxiv.org/abs/2402.14045v2 )

ライセンス: Link先を確認
Sisipho Hamlomo, Marcellin Atemkeng, Yusuf Brima, Chuneeta Nunhokee, Jeremy Baxter, (参考訳) 医療画像データセットの膨大な量と複雑さは、ストレージ、送信、処理のボトルネックである。 これらの課題に対処するため、低ランク行列近似(LRMA)とその誘導体である局所LRMA(LLRMA)の適用の可能性が示された。 文献の詳細な分析では、様々な画像モダリティに適用されたLRMA法とLLRMA法を同定し、既存のLRMA法とLLRMA法に関連する課題と限界に対処する。 2015年以降の医療画像分野におけるLLRMAの嗜好への大きな変化は、LRMAと比較して、医療データにおける複雑な構造を捉える可能性と有効性を示している。 LLRMAで用いられる浅部類似度手法の限界を認識し、類似度測定のための高度なセマンティックイメージセグメンテーションを提案し、類似パッチの計測方法とその実現可能性について詳述する。 LRMAとLLRMAは、主に非構造化医療データに適用され、構造化・半構造化を含む様々な医療データタイプに応用範囲を広げることを提案する。 また、LRMAとLLRMAは、欠落したエントリを持つ正規データに対してどのように適用できるのか、また、欠落した値とその影響を予測するための不正確さの影響についても論じる。 パッチサイズの影響を議論し、最適なパッチサイズを決定するためにランダム検索(RS)を提案する。 医療画像におけるLRMAとLLRMAの適用性を向上させるため,ベイズ最適化とRSを用いたハイブリッドアプローチを提案する。

The large volume and complexity of medical imaging datasets are bottlenecks for storage, transmission, and processing. To tackle these challenges, the application of low-rank matrix approximation (LRMA) and its derivative, local LRMA (LLRMA) has demonstrated potential. A detailed analysis of the literature identifies LRMA and LLRMA methods applied to various imaging modalities, and the challenges and limitations associated with existing LRMA and LLRMA methods are addressed. We note a significant shift towards a preference for LLRMA in the medical imaging field since 2015, demonstrating its potential and effectiveness in capturing complex structures in medical data compared to LRMA. Acknowledging the limitations of shallow similarity methods used with LLRMA, we suggest advanced semantic image segmentation for similarity measure, explaining in detail how it can measure similar patches and their feasibility. We note that LRMA and LLRMA are mainly applied to unstructured medical data, and we propose extending their application to different medical data types, including structured and semi-structured. This paper also discusses how LRMA and LLRMA can be applied to regular data with missing entries and the impact of inaccuracies in predicting missing values and their effects. We discuss the impact of patch size and propose the use of random search (RS) to determine the optimal patch size. To enhance feasibility, a hybrid approach using Bayesian optimization and RS is proposed, which could improve the application of LRMA and LLRMA in medical imaging.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# APTQ:大規模言語モデルのための注意認識後混合精度量子化

APTQ: Attention-aware Post-Training Mixed-Precision Quantization for Large Language Models ( http://arxiv.org/abs/2402.14866v2 )

ライセンス: Link先を確認
Ziyi Guan, Hantao Huang, Yupeng Su, Hong Huang, Ngai Wong, Hao Yu, (参考訳) 大規模言語モデル(LLM)は自然言語処理パラダイムを大幅に進歩させた。 しかし、高い計算負荷と巨大なモデルサイズは、エッジデバイスにデプロイする上で大きな課題となる。 この目的のために, 各層の重みの2次情報だけでなく, 初めて, 注意出力の非線形効果を考慮したLCMのためのAPTQ(Attention-aware Post-Training Mixed-Precision Quantization)を提案する。 我々はヘシアントレースを混合精度量子化の感度指標として利用し、モデル性能を維持するための情報精度の低下を確実にする。 実験の結果、APTQは従来の量子化法を超越し、平均4ビット幅5.22パープレキシティをC4データセットの完全精度とほぼ同等に達成した。 さらに、APTQは、LLaMa-7BとLLaMa-13Bの平均ビット幅において、68.24\%と70.48\%の最先端ゼロショット精度を達成し、高品質の量子化LDMを製造する効果を示す。

Large Language Models (LLMs) have greatly advanced the natural language processing paradigm. However, the high computational load and huge model sizes pose a grand challenge for deployment on edge devices. To this end, we propose APTQ (Attention-aware Post-Training Mixed-Precision Quantization) for LLMs, which considers not only the second-order information of each layer's weights, but also, for the first time, the nonlinear effect of attention outputs on the entire model. We leverage the Hessian trace as a sensitivity metric for mixed-precision quantization, ensuring an informed precision reduction that retains model performance. Experiments show APTQ surpasses previous quantization methods, achieving an average of 4 bit width a 5.22 perplexity nearly equivalent to full precision in the C4 dataset. In addition, APTQ attains state-of-the-art zero-shot accuracy of 68.24\% and 70.48\% at an average bitwidth of 3.8 in LLaMa-7B and LLaMa-13B, respectively, demonstrating its effectiveness to produce high-quality quantized LLMs.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# 安全臨界応用のための目的抑制型マルチ制約安全RL

Multi-Constraint Safe RL with Objective Suppression for Safety-Critical Applications ( http://arxiv.org/abs/2402.15650v2 )

ライセンス: Link先を確認
Zihan Zhou, Jonathan Booher, Khashayar Rohanimanesh, Wei Liu, Aleksandr Petiushko, Animesh Garg, (参考訳) 複数の制約のある安全な強化学習タスクは、現実世界で非常に一般的であるにもかかわらず、難しい領域です。 安全クリティカルなドメインでは、制約を適切に扱うことがさらに重要になる。 この課題に対処するために、我々はまず、より強力な一様制約型MDP(UCMDP)モデルを用いたマルチ制約問題について記述し、その上で、安全評論家によるタスク報酬の最大化を適応的に抑制する新しい手法であるObjective Suppressionを、UCMDDPのラグランジアン双対の解として提案する。 我々は、不正な動作が破滅的な結果をもたらす可能性のある自律運転領域を含む2つのマルチ制約安全領域において、Objective Suppressionをベンチマークする。 実験により,提案手法は,既存の安全RLアルゴリズムと組み合わせることで,ベースラインが達成したタスク報酬と極めて少ない制約違反で一致できることを実証した。

Safe reinforcement learning tasks with multiple constraints are a challenging domain despite being very common in the real world. In safety-critical domains, properly handling the constraints becomes even more important. To address this challenge, we first describe the multi-constraint problem with a stronger Uniformly Constrained MDP (UCMDP) model; we then propose Objective Suppression, a novel method that adaptively suppresses the task reward maximizing objectives according to a safety critic, as a solution to the Lagrangian dual of a UCMDP. We benchmark Objective Suppression in two multi-constraint safety domains, including an autonomous driving domain where any incorrect behavior can lead to disastrous consequences. Empirically, we demonstrate that our proposed method, when combined with existing safe RL algorithms, can match the task reward achieved by our baselines with significantly fewer constraint violations.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# MATHWELL: 年齢に応じた教育用単語問題の生成

MATHWELL: Generating Age-Appropriate Educational Math Word Problems ( http://arxiv.org/abs/2402.15861v4 )

ライセンス: Link先を確認
Bryan R Christ, Jonathan Kropko, Thomas Hartvigsen, (参考訳) 数学の単語問題は重要なK-8教育ツールであるが、それらを書くのに時間がかかり、ドメインの専門知識を必要とする。 問題の自動生成により,K-8の数学教育を支援する言語モデルを提案する。 教育のためには、生成された問題は必要である。 1)解決可能。 2)正確で,かつ 3) 適当。 既存のデータセットはこれらの基準にラベルが付けられていないため、問題生成者のトレーニングには適していない。 このギャップに対処するために、ドメインエキスパートアノテーションを使用して、このタスクのために高品質な合成トレーニングデータセットをキュレートします。 K-8ワード問題生成器MATHWELLを作成するために,Llama-2 (70B) を反復的に微調整する手法を用いて,このデータの価値を示す。 ドメインの専門家は、MATHWELLが既存のオープンソースモデルよりも実行可能ソリューションを持ち、すべての基準を満たす問題の割合が40%高く、実行可能ソリューションに関する問題の74%が解決可能で正確で適切であると考えている。 MATHWELL は GPT-4 Turbo の94.9%をこのタスクで達成し、K-8 の学生にとってより適切な読解レベルで記述された問題を出力する。 MATHWELLの性能は微調整で訓練されているにもかかわらず、年齢に適した単語生成装置を訓練するための合成データの品質のみを強調している。 私たちはモデル、データ、アノテーションをリリースします。

Math word problems are critical K-8 educational tools, but writing them is time-consuming and requires domain expertise. We suggest that language models can support K-8 math education by automatically generating problems. To be educational, generated problems must be 1) solvable, 2) accurate, and 3) appropriate. Existing datasets are unlabeled for these criteria, making them ill-suited for training problem generators. To address this gap, we use domain expert annotation to curate a high-quality synthetic training dataset for this task. We show the value of this data by using it to iteratively finetune Llama-2 (70B) to create MATHWELL, a K-8 word problem generator. Domain experts find MATHWELL has a 40% higher share of problems that have executable solutions and meet all criteria than existing open-source models, with 74% of its problems with executable solutions being solvable, accurate, and appropriate. MATHWELL achieves 94.9% of GPT-4 Turbo's performance on this task while outputting problems written at a more appropriate reading level for K-8 students. MATHWELL's performance despite being trained by finetuning only highlights the quality of our synthetic data for training age-appropriate word problem generators. We release our model, data, and annotations.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# GROUNDHOG: 大規模言語モデルからホロスティックセグメンテーションへ

GROUNDHOG: Grounding Large Language Models to Holistic Segmentation ( http://arxiv.org/abs/2402.16846v2 )

ライセンス: Link先を確認
Yichi Zhang, Ziqiao Ma, Xiaofeng Gao, Suhaila Shakiah, Qiaozi Gao, Joyce Chai, (参考訳) ほとんどのマルチモーダル大規模言語モデル(MLLM)は、境界ボックスを位置トークンのシーケンスとして捉えた因果言語モデリングを通じて言語からオブジェクトへのグラウンドを学習する。 このパラダイムは、微細な視覚的理解と診断に重要なピクセルレベルの表現を欠いている。 本研究では,Large Language ModelsをベースとしたMLLMであるGROUNDHOGを紹介する。 GROUNDHOGはマスク付き特徴抽出器を内蔵し、抽出した特徴をMLLMバックボーンの視覚的エンティティトークンに変換する。 M3G2はマルチモーダル・マルチグラインド・グラウンディングを用いて,リッチアノテーションを用いたセグメンテーション・グラウンドド・データセットの収集により,グラウンドド・ビジュアル・インストラクション・チューニング・データセットである。 実験結果から,GROUNDHOGはタスク固有の微調整を伴わずに,様々な言語基底タスクにおいて優れた性能を達成でき,物体幻覚を著しく低減できることがわかった。 GROUNDHOGはまた、複雑な視覚入力へのより良い基盤を示し、障害ケースで容易に理解できる診断を提供する。

Most multimodal large language models (MLLMs) learn language-to-object grounding through causal language modeling where grounded objects are captured by bounding boxes as sequences of location tokens. This paradigm lacks pixel-level representations that are important for fine-grained visual understanding and diagnosis. In this work, we introduce GROUNDHOG, an MLLM developed by grounding Large Language Models to holistic segmentation. GROUNDHOG incorporates a masked feature extractor and converts extracted features into visual entity tokens for the MLLM backbone, which then connects groundable phrases to unified grounding masks by retrieving and merging the entity masks. To train GROUNDHOG, we carefully curated M3G2, a grounded visual instruction tuning dataset with Multi-Modal Multi-Grained Grounding, by harvesting a collection of segmentation-grounded datasets with rich annotations. Our experimental results show that GROUNDHOG achieves superior performance on various language grounding tasks without task-specific fine-tuning, and significantly reduces object hallucination. GROUNDHOG also demonstrates better grounding towards complex forms of visual input and provides easy-to-understand diagnosis in failure cases.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# LLMは文化的関連コモンセンスQAデータを生成することができるか? : インドネシアとスンダのケーススタディ

Can LLM Generate Culturally Relevant Commonsense QA Data? Case Study in Indonesian and Sundanese ( http://arxiv.org/abs/2402.17302v2 )

ライセンス: Link先を確認
Rifki Afina Putri, Faiz Ghifari Haznitrama, Dea Adhista, Alice Oh, (参考訳) 大規模言語モデル(LLM)は、モデルを訓練し、評価するために合成データを生成するために、ますます使われている。 しかし、言語に埋め込まれた知識と文化的ニュアンス(特に低リソース言語)を組み込んだQAデータセットを生成できるかどうかは不明である。 本研究では,インドネシア語とスンダ語における文化関連コモンセンスQAデータセット作成におけるLLMの利用の有効性について検討した。 そのために、LLMと人間のアノテータの両方を含む様々な手法を用いて、これらの言語のためのデータセットを作成します。 実験の結果,既存の英語データセットからの自動データ適応はサンダン語では効果が低いことがわかった。 興味深いことに、GPT-4 Turboはターゲット言語上の直接生成法を用いて、文化的に「深み」ではないが、両方の言語で十分な一般知識を持つ質問を生成することができる。 また,Sundaneseデータセットのフラレンシエラーの発生頻度も高く,中級言語と低級言語の相違点を浮き彫りにしている。

Large Language Models (LLMs) are increasingly being used to generate synthetic data for training and evaluating models. However, it is unclear whether they can generate a good quality of question answering (QA) dataset that incorporates knowledge and cultural nuance embedded in a language, especially for low-resource languages. In this study, we investigate the effectiveness of using LLMs in generating culturally relevant commonsense QA datasets for Indonesian and Sundanese languages. To do so, we create datasets for these languages using various methods involving both LLMs and human annotators, resulting in ~4.5K questions per language (~9K in total), making our dataset the largest of its kind. Our experiments show that automatic data adaptation from an existing English dataset is less effective for Sundanese. Interestingly, using the direct generation method on the target language, GPT-4 Turbo can generate questions with adequate general knowledge in both languages, albeit not as culturally 'deep' as humans. We also observe a higher occurrence of fluency errors in the Sundanese dataset, highlighting the discrepancy between medium- and lower-resource languages.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# AVS-Net:3次元シーン理解のための適応型ボクセルサイズを用いたポイントサンプリング

AVS-Net: Point Sampling with Adaptive Voxel Size for 3D Scene Understanding ( http://arxiv.org/abs/2402.17521v2 )

ライセンス: Link先を確認
Hongcheng Yang, Dingkang Liang, Dingyuan Zhang, Zhe Liu, Zhikang Zou, Xingyu Jiang, Yingying Zhu, (参考訳) ポイント学習の最近の進歩により、インテリジェントな車やロボットが3D環境をよりよく理解できるようになった。 しかし、大規模な3Dシーンの処理は依然として困難な問題であり、効率的なダウンサンプリング手法がポイントクラウド学習において重要な役割を果たす。 既存のダウンサンプリング手法では、計算の負担が大きいか、きめ細かい幾何学的情報を犠牲にする。 そこで本研究では,高精度かつ高効率な試料試料について述べる。 提案手法は, ボクセル・セントロイドサンプリングを基礎として利用するが, ボクセルサイズの決定と重要な幾何学的手がかりの保存に関する課題を効果的に解決する。 具体的には,Voxel Adaptation Module(Voxel Adaptation Module,Voxel Adaptation Module,Voxel Adaptation Module,Voxel Adaptation Module,Voxel Adaptation Module,Voxel Adaptation Module)を提案する。 これにより、サンプリング結果が様々な3Dオブジェクトやシーンの理解に好適な分布を示すことが保証される。 一方,高効率を維持しつつ,サンプリングおよび特徴抽出のための任意のボクセルサイズに対応するネットワークを導入する。 提案手法は3次元オブジェクト検出と3次元セマンティックセマンティックセグメンテーションを用いて実証される。 既存の最先端手法と比較して、当社の手法は、例えばWaymoやScanNetといった屋外および屋内の大規模データセットの精度を向上し、有望な効率性を実現している。

The recent advancements in point cloud learning have enabled intelligent vehicles and robots to comprehend 3D environments better. However, processing large-scale 3D scenes remains a challenging problem, such that efficient downsampling methods play a crucial role in point cloud learning. Existing downsampling methods either require a huge computational burden or sacrifice fine-grained geometric information. For such purpose, this paper presents an advanced sampler that achieves both high accuracy and efficiency. The proposed method utilizes voxel centroid sampling as a foundation but effectively addresses the challenges regarding voxel size determination and the preservation of critical geometric cues. Specifically, we propose a Voxel Adaptation Module that adaptively adjusts voxel sizes with the reference of point-based downsampling ratio. This ensures that the sampling results exhibit a favorable distribution for comprehending various 3D objects or scenes. Meanwhile, we introduce a network compatible with arbitrary voxel sizes for sampling and feature extraction while maintaining high efficiency. The proposed approach is demonstrated with 3D object detection and 3D semantic segmentation. Compared to existing state-of-the-art methods, our approach achieves better accuracy on outdoor and indoor large-scale datasets, e.g. Waymo and ScanNet, with promising efficiency.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# 大規模言語モデルにおける人的価値の多言語概念の探索: 価値アライメントは一貫性があり、伝達可能で、言語間で制御可能であるか?

Exploring Multilingual Concepts of Human Value in Large Language Models: Is Value Alignment Consistent, Transferable and Controllable across Languages? ( http://arxiv.org/abs/2402.18120v2 )

ライセンス: Link先を確認
Shaoyang Xu, Weilong Dong, Zishan Guo, Xinwei Wu, Deyi Xiong, (参考訳) 表現工学における以前の研究により、LLMは表現空間の概念を符号化し、主に英語を中心にしていることが明らかになった。 本研究では、この哲学を多言語シナリオに拡張し、LLMにおける多言語人間の価値概念を掘り下げる。 7種類の人的価値、16の言語、3のLLMシリーズを網羅的に調査し、LLMにおける多言語人的価値の存在を実証的に裏付けた。 これらの概念に関するさらなる言語間分析は、言語資源の相違から生じる3つの特徴、すなわち、言語間不整合、歪んだ言語関係、高リソース言語と低リソース言語間の一方向の言語間移動を、いずれも人的価値の概念の観点から明らかにしている。 さらに,LLMの値アライメント機能に対する言語間制御の実現可能性を検証する。 本研究は,多言語値アライメントに関する知見から,LLMの事前学習のための多言語データの構成について,過剰な頻度を回避しつつ,言語間アライメント転送のための支配言語を限定的に含むとともに,非支配言語のバランスの取れた分布を維持することを提案する。 私たちは、この発見が多言語AIの安全性と実用性の向上に寄与することを期待しています。

Prior research in representation engineering has revealed that LLMs encode concepts within their representation spaces, predominantly centered around English. In this study, we extend this philosophy to a multilingual scenario, delving into multilingual human value concepts in LLMs. Through our comprehensive exploration covering 7 types of human values, 16 languages and 3 LLM series with distinct multilinguality, we empirically substantiate the existence of multilingual human values in LLMs. Further cross-lingual analysis on these concepts discloses 3 traits arising from language resource disparities: cross-lingual inconsistency, distorted linguistic relationships, and unidirectional cross-lingual transfer between high- and low-resource languages, all in terms of human value concepts. Additionally, we validate the feasibility of cross-lingual control over value alignment capabilities of LLMs, leveraging the dominant language as a source language. Drawing from our findings on multilingual value alignment, we prudently provide suggestions on the composition of multilingual data for LLMs pre-training: including a limited number of dominant languages for cross-lingual alignment transfer while avoiding their excessive prevalence, and keeping a balanced distribution of non-dominant languages. We aspire that our findings would contribute to enhancing the safety and utility of multilingual AI.
翻訳日:2024-04-17 22:56:09 公開日:2024-04-16
# VulMCI : より連続的な脆弱性画像生成のためのコードスプリシングに基づくPixel-rowオーバーサンプリング

VulMCI : Code Splicing-based Pixel-row Oversampling for More Continuous Vulnerability Image Generation ( http://arxiv.org/abs/2402.18189v2 )

ライセンス: Link先を確認
Tao Peng, Ling Gui, Yi Sun, (参考訳) 近年、ディープラーニング技術の急速な発展は、脆弱性検出の分野に新たな展望をもたらしている。 多くの脆弱性検出方法は、ソースコードを画像に変換することで検出するが、生成された画像の品質を見落としてしまうことが多い。 脆弱性画像には明瞭で連続的な輪郭がないため、オブジェクト検出で使用される画像とは異なり、畳み込みとプーリングプロセスの間、畳み込みニューラルネットワーク(CNN)は意味情報を失う傾向がある。 そこで本研究では,コード画像のカラー化における不連続性の問題に対処するため,コード行の連結に基づく画素行オーバーサンプリング手法を提案し,脆弱性検出システムVulMCIを提案し,SARDおよびNVDデータセット上でテストを実行する。 実験の結果、VulMCIは7つの最先端の脆弱性検知器(Checkmarx、FlawFinder、RATS、VulDeePecker、SySeVR、VulCNN、Devign)を上回っている。 他の画像ベースの手法と比較して、VulMCIはTrue Positive Rate (TPR)の2.877 %、True Negative Rate (TNR)の5.446 %、精度(ACC)の5.91 %といった様々な指標の改善を示している。 NVD実世界のデータセットでは、VulMCIは平均精度5.162\%に達し、実際の脆弱性検出アプリケーションでその価値を確認する。

In recent years, the rapid development of deep learning technology has brought new prospects to the field of vulnerability detection. Many vulnerability detection methods involve converting source code into images for detection, yet they often overlook the quality of the generated images. Due to the fact that vulnerability images lack clear and continuous contours, unlike images used in object detection, Convolutional Neural Networks (CNNs) tend to lose semantic information during the convolution and pooling processes. Therefore, this paper proposes a pixel row oversampling method based on code line concatenation to generate more continuous code features, addressing the issue of discontinuity in code image coloration.Building upon these contributions, we propose the vulnerability detection system VulMCI and conduct tests on the SARD and NVD datasets. Experimental results demonstrate that VulMCI outperforms seven state-of-the-art vulnerability detectors (namely Checkmarx, FlawFinder, RATS, VulDeePecker, SySeVR, VulCNN, and Devign). Compared to other image-based methods, VulMCI shows improvements in various metrics, including a 2.877\% increase in True Positive Rate (TPR), a 5.446\% increase in True Negative Rate (TNR), and a 5.91\% increase in Accuracy (ACC). On the NVD real-world dataset, VulMCI achieves an average accuracy of 5.162\%, confirming its value in practical vulnerability detection applications.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-16
# 配向境界箱の連続表現を理論的に達成する

Theoretically Achieving Continuous Representation of Oriented Bounding Boxes ( http://arxiv.org/abs/2402.18975v2 )

ライセンス: Link先を確認
Zi-Kai Xiao, Guo-Ye Yang, Xue Yang, Tai-Jiang Mu, Junchi Yan, Shi-min Hu, (参考訳) オブジェクト指向オブジェクト検出(OOD)に多大な努力が注がれている。 しかし、オブジェクト指向境界ボックス(OBB)表現の不連続性に関する最後の問題は未解決のままであり、これは既存のOODメソッドに固有のボトルネックである。 本稿では、理論的に保証された方法でこの問題を完全に解決し、この方向へのアドホックな取り組みに終止符を打つ。 従来の研究では、回転とアスペクト比の2つの不連続性のうちの1つに対処することができ、しばしば非連続性(decoding discontinuity)、egデコーディング不完全性(DI)、およびDA(Decoding Ambiguity)が文献で論じられている。 具体的には,Continuous OBB (COBB) と呼ばれる新しい表現法を提案する。 理論上は、長方形に基づく対象表現の文献では達成されていない最良の知識に対して、有界箱回帰の連続性を保証することができる。 OOD評価のためのオープンソースのディープラーニングフレームワークJittorの検出ツールボックスJDetをベースとした,モジュール化されたベンチマークを開発した。 一般的なDOTAデータセットでは、Faster-RCNNを同じベースラインモデルとして統合することにより、新しいメソッドはピアメソッドのGliding Vertexを1.13%のmAP50(相対改善1.54%)と2.46%のmAP75(相対改善5.91%)で上回ります。

Considerable efforts have been devoted to Oriented Object Detection (OOD). However, one lasting issue regarding the discontinuity in Oriented Bounding Box (OBB) representation remains unresolved, which is an inherent bottleneck for extant OOD methods. This paper endeavors to completely solve this issue in a theoretically guaranteed manner and puts an end to the ad-hoc efforts in this direction. Prior studies typically can only address one of the two cases of discontinuity: rotation and aspect ratio, and often inadvertently introduce decoding discontinuity, e.g. Decoding Incompleteness (DI) and Decoding Ambiguity (DA) as discussed in literature. Specifically, we propose a novel representation method called Continuous OBB (COBB), which can be readily integrated into existing detectors e.g. Faster-RCNN as a plugin. It can theoretically ensure continuity in bounding box regression which to our best knowledge, has not been achieved in literature for rectangle-based object representation. For fairness and transparency of experiments, we have developed a modularized benchmark based on the open-source deep learning framework Jittor's detection toolbox JDet for OOD evaluation. On the popular DOTA dataset, by integrating Faster-RCNN as the same baseline model, our new method outperforms the peer method Gliding Vertex by 1.13% mAP50 (relative improvement 1.54%), and 2.46% mAP75 (relative improvement 5.91%), without any tricks.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-16
# 一般化線形混合モデルに対するスケーラブルベイズ推論

Scalable Bayesian inference for the generalized linear mixed model ( http://arxiv.org/abs/2403.03007v2 )

ライセンス: Link先を確認
Samuel I. Berchuck, Felipe A. Medeiros, Sayan Mukherjee, Andrea Agazzi, (参考訳) 一般化線形混合モデル(GLMM)は相関データを扱うための一般的な統計手法であり、バイオメディカルデータ設定を含むビッグデータが一般的であるアプリケーション領域で広く利用されている。 本論文の焦点は,統計推論を次のように定義するGLMMに対するスケーラブルな統計的推論である。 一 人口パラメータの推定、及び 二 不確実性の有無における科学的仮説の評価 人工知能(AI)学習アルゴリズムは、スケーラブルな統計的推定において優れているが、不確実な定量化を含むことは滅多にない。 対照的にベイズ推論は、不確実な定量化が後部分布から自動的に生じるため、完全な統計的推測を提供する。 残念なことに、マルコフ・チェイン・モンテカルロ (MCMC) を含むベイジアン推論アルゴリズムは、ビッグデータ設定において計算的に難解になる。 本稿では,AIとベイジアン推論の交点に統計的推論アルゴリズムを導入し,ベイジアン推論に付随する不確実性定量化を保証した現代AIアルゴリズムのスケーラビリティを活用する。 提案アルゴリズムは確率勾配MCMCの拡張であり, 相関データ(すなわち, 難解な辺縁確率)の処理と適切な後方偏差推定に対処する新しい寄与がある。 理論的および実証的な結果を通じて,我々のアルゴリズムの統計的推測特性を確立し,この手法を大規模電子健康記録データベースに適用する。

The generalized linear mixed model (GLMM) is a popular statistical approach for handling correlated data, and is used extensively in applications areas where big data is common, including biomedical data settings. The focus of this paper is scalable statistical inference for the GLMM, where we define statistical inference as: (i) estimation of population parameters, and (ii) evaluation of scientific hypotheses in the presence of uncertainty. Artificial intelligence (AI) learning algorithms excel at scalable statistical estimation, but rarely include uncertainty quantification. In contrast, Bayesian inference provides full statistical inference, since uncertainty quantification results automatically from the posterior distribution. Unfortunately, Bayesian inference algorithms, including Markov Chain Monte Carlo (MCMC), become computationally intractable in big data settings. In this paper, we introduce a statistical inference algorithm at the intersection of AI and Bayesian inference, that leverages the scalability of modern AI algorithms with guaranteed uncertainty quantification that accompanies Bayesian inference. Our algorithm is an extension of stochastic gradient MCMC with novel contributions that address the treatment of correlated data (i.e., intractable marginal likelihood) and proper posterior variance estimation. Through theoretical and empirical results we establish our algorithm's statistical inference properties, and apply the method in a large electronic health records database.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-16
# 多言語NLPデータセットにおける言語多様性の透過的比較尺度

A Measure for Transparent Comparison of Linguistic Diversity in Multilingual NLP Data Sets ( http://arxiv.org/abs/2403.03909v2 )

ライセンス: Link先を確認
Tanja Samardzic, Ximena Gutierrez, Christian Bentz, Steven Moran, Olga Pelloni, (参考訳) 多言語NLPで達成された進歩を追跡するため、タイポロジー的に多様性のあるベンチマークがますます作成されている。 これらのデータセットの言語学的多様性は、典型的にはサンプルに含まれる言語や言語族の数として測定されるが、そのような尺度は含まれた言語の構造的特性を考慮しない。 本稿では,言語多様性を長期にわたって最大化する手段として,参照言語サンプルに対するデータセットの言語多様性を評価することを提案する。 言語を特徴の集合として表現し、測定値の集合を比較するのに適した Jaccard index のバージョンを適用します。 タイプ的データベースから抽出された特徴に加えて,手作業で収集した特徴において,データ空間のよく知られた問題を克服する手段として,自動テキストベース尺度を提案する。 我々の多様性スコアは言語的特徴の観点から解釈可能であり、データセットに表現されていない言語のタイプを特定することができる。 本手法を用いて, 一般的な多言語データセット(UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD)を解析した。 これらのデータセットのランキングに加え、例えば、(多言語)合成言語がほとんどすべての言語に欠けていることが分かる。

Typologically diverse benchmarks are increasingly created to track the progress achieved in multilingual NLP. Linguistic diversity of these data sets is typically measured as the number of languages or language families included in the sample, but such measures do not consider structural properties of the included languages. In this paper, we propose assessing linguistic diversity of a data set against a reference language sample as a means of maximising linguistic diversity in the long run. We represent languages as sets of features and apply a version of the Jaccard index suitable for comparing sets of measures. In addition to the features extracted from typological data bases, we propose an automatic text-based measure, which can be used as a means of overcoming the well-known problem of data sparsity in manually collected features. Our diversity score is interpretable in terms of linguistic features and can identify the types of languages that are not represented in a data set. Using our method, we analyse a range of popular multilingual data sets (UD, Bible100, mBERT, XTREME, XGLUE, XNLI, XCOPA, TyDiQA, XQuAD). In addition to ranking these data sets, we find, for example, that (poly)synthetic languages are missing in almost all of them.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-16
# 大規模言語モデルはインコンテキストの分子学習者である

Large Language Models are In-Context Molecule Learners ( http://arxiv.org/abs/2403.04197v2 )

ライセンス: Link先を確認
Jiatong Li, Wei Liu, Zhihao Ding, Wenqi Fan, Yuqiang Li, Qing Li, (参考訳) 大規模言語モデル(LLM)は、特に分子と自然言語のテキストのギャップを埋めることを目的とした分子キャプション翻訳タスクにおいて、例外的な性能を示した。 しかし、従来のLLMの分子カプセル翻訳タスクへの適応には、ドメイン固有の事前訓練段階が必要であり、分子空間とテキスト空間の整合が弱かったり、LLMのスケールに厳格な要求が課されたりしていた。 課題を解決するために,LLMがコンテキスト例から分子文アライメントを学習するための新しいパラダイムとして,In-Context Molecule Adaptation (ICMA)を提案する。 特に、ICMAは、ハイブリッドコンテキスト検索、ポスト検索再分類、インコンテキスト・モレクル・チューニングの3つの段階を取り入れている。 当初、Hybrid Context RetrievalはBM25 Caption RetrievalとMorecule Graph Retrievalを使用して情報的コンテキストのサンプルを取得する。 また、検索結果の質をさらに向上させるために、Sequence ReversalとRandom Walkを用いた検索後再ランク付けも提案する。 最後に、In-Context Molecule Tuningは、LLMのコンテキスト内分子学習能力を検索例で解き、LLMのパラメータを分子カプセル翻訳タスクに適用する。 実験により, ICMTは, LLMが本来は文脈内分子学習者であることを示すため, 余分な訓練コーパスや複雑な構造を伴わずに, 最先端または同等の性能を達成することができることを示した。

Large Language Models (LLMs) have demonstrated exceptional performance in biochemical tasks, especially the molecule caption translation task, which aims to bridge the gap between molecules and natural language texts. However, previous methods in adapting LLMs to the molecule-caption translation task required extra domain-specific pre-training stages, suffered weak alignment between molecular and textual spaces, or imposed stringent demands on the scale of LLMs. To resolve the challenges, we propose In-Context Molecule Adaptation (ICMA), as a new paradigm allowing LLMs to learn the molecule-text alignment from context examples via In-Context Molecule Tuning. Specifically, ICMA incorporates the following three stages: Hybrid Context Retrieval, Post-retrieval Re-ranking, and In-context Molecule Tuning. Initially, Hybrid Context Retrieval utilizes BM25 Caption Retrieval and Molecule Graph Retrieval to retrieve informative context examples. Additionally, we also propose Post-retrieval Re-ranking with Sequence Reversal and Random Walk to further improve the quality of retrieval results. Finally, In-Context Molecule Tuning unlocks the in-context molecule learning capability of LLMs with retrieved examples and adapts the parameters of LLMs for the molecule-caption translation task. Experimental results demonstrate that ICMT can empower LLMs to achieve state-of-the-art or comparable performance without extra training corpora and intricate structures, showing that LLMs are inherently in-context molecule learners.
翻訳日:2024-04-17 22:46:16 公開日:2024-04-16
# 準同型レンズによるグラフニューラルネットワークの一般化

Generalization of Graph Neural Networks through the Lens of Homomorphism ( http://arxiv.org/abs/2403.06079v2 )

ライセンス: Link先を確認
Shouheng Li, Dongwoo Kim, Qing Wang, (参考訳) グラフニューラルネットワーク(GNN)が多くのアプリケーションで広く普及しているにもかかわらず、GNNの一般化能力はいまだ検討されていない。 本稿では,グラフ準同型のエントロピーを解析し,新しい視点からGNNの一般化を考察する。 グラフ準同型と情報理論測度を結びつけることにより、グラフ分類とノード分類の両方の一般化境界を導出する。 これらの境界は、パス、サイクル、傾きなど、様々なグラフ構造に固有の微妙さを捉えることができる。 これにより、ロバストな理論的保証を持つデータ依存の一般化分析が可能になる。 提案した境界の一般性に光を当てるために、グラフ準同型レンズを通してGNNモデルの広いスペクトルを特徴付ける統一フレームワークを提案する。 提案した境界値と実世界のデータセットと合成データセットの双方に対する経験的に観察された一般化ギャップとの整合性を示すことによって,理論的な結果の実用性を検証する。

Despite the celebrated popularity of Graph Neural Networks (GNNs) across numerous applications, the ability of GNNs to generalize remains less explored. In this work, we propose to study the generalization of GNNs through a novel perspective - analyzing the entropy of graph homomorphism. By linking graph homomorphism with information-theoretic measures, we derive generalization bounds for both graph and node classifications. These bounds are capable of capturing subtleties inherent in various graph structures, including but not limited to paths, cycles and cliques. This enables a data-dependent generalization analysis with robust theoretical guarantees. To shed light on the generality of of our proposed bounds, we present a unifying framework that can characterize a broad spectrum of GNN models through the lens of graph homomorphism. We validate the practical applicability of our theoretical findings by showing the alignment between the proposed bounds and the empirically observed generalization gaps over both real-world and synthetic datasets.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# 大規模言語モデルは筆記エッセイの精度を自動評価できるか?

Can Large Language Models Automatically Score Proficiency of Written Essays? ( http://arxiv.org/abs/2403.06149v2 )

ライセンス: Link先を確認
Watheq Mansour, Salam Albatarni, Sohaila Eltanbouly, Tamer Elsayed, (参考訳) 過去50年間に自動エッセイスコアリング(AES)の問題に対処するためにいくつかの手法が提案されてきたが、有効性の観点からはまだ多くの要望がある。 大規模言語モデル(LLMs)は、様々なタスクにおいて異常な能力を示すトランスフォーマーベースのモデルである。 本稿では,LLMの強力な言語知識を活かして,文章エッセイを分析し,効果的に評価する能力について検証する。 私たちはChatGPTとLlamaという2つの人気のあるLLMを実験した。 これらのモデルがこのタスクを実行できるかどうかを確認し、もしそうなら、それらのパフォーマンスが2段階にわたる最先端(SOTA)モデルの中でどのように位置づけられているのかを、全体的および個々の書き込み特性によって確認することを目指している。 我々は4つの異なるプロンプトを設計し、その最大限の可能性をこのタスクにもたらすために、プロンプトエンジニアリングの戦術を利用した。 ASAPデータセットを用いて行った実験では,いくつかの興味深い観察結果が得られた。 まず、正しいプロンプトを選択することは、タスクのモデルと性質に大きく依存します。 第二に、2つのLSMはAESで同等の平均性能を示し、ChatGPTにわずかに有利であった。 最後に,2つのLLMモデルとSOTAモデルのパフォーマンスの差にもかかわらず,エッセイの品質向上のためのフィードバックを提供し,教師と学生の両方に役立つ可能性がある。

Although several methods were proposed to address the problem of automated essay scoring (AES) in the last 50 years, there is still much to desire in terms of effectiveness. Large Language Models (LLMs) are transformer-based models that demonstrate extraordinary capabilities on various tasks. In this paper, we test the ability of LLMs, given their powerful linguistic knowledge, to analyze and effectively score written essays. We experimented with two popular LLMs, namely ChatGPT and Llama. We aim to check if these models can do this task and, if so, how their performance is positioned among the state-of-the-art (SOTA) models across two levels, holistically and per individual writing trait. We utilized prompt-engineering tactics in designing four different prompts to bring their maximum potential to this task. Our experiments conducted on the ASAP dataset revealed several interesting observations. First, choosing the right prompt depends highly on the model and nature of the task. Second, the two LLMs exhibited comparable average performance in AES, with a slight advantage for ChatGPT. Finally, despite the performance gap between the two LLMs and SOTA models in terms of predictions, they provide feedback to enhance the quality of the essays, which can potentially help both teachers and students.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# No Language is an Island: Unification Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks

No Language is an Island: Unifying Chinese and English in Financial Large Language Models, Instruction Data, and Benchmarks ( http://arxiv.org/abs/2403.06249v2 )

ライセンス: Link先を確認
Gang Hu, Ke Qin, Chenhan Yuan, Min Peng, Alejandro Lopez-Lira, Benyou Wang, Sophia Ananiadou, Wanlong Yu, Jimin Huang, Qianqian Xie, (参考訳) LLM(Large Language Models)の進歩は、金融分析を顕著に推進してきたが、その応用は大半が単一言語領域に限られており、中国語と英語のバイリンガルな能力の可能性を解き放ったままである。 このシャームを橋渡しするために,ICE-INTENTモデルとICE-FLAREベンチマークをシームレスに融合したICE-PIXIUを導入する。 ICE-PIXIUは、翻訳および原文の英語データセットとともに、中国語タスクのスペクトルを統合し、バイリンガル・ファイナンシャル・モデリングの幅と深さを豊かにする。 多様なモデルバリアントへの無制限アクセス、多言語およびマルチモーダルの命令データの実質的なコンパイル、および10のNLPタスク、20のバイリンガル固有のタスク、合計95kデータセットを含む専門家アノテーションによる評価ベンチマークを提供する。 我々の徹底的な評価は、これらのバイリンガルデータセットを特に翻訳タスクに導入し、元の英語データを活用するという利点を強調し、金融状況における言語的柔軟性と分析力の両面での強化を図っている。 特にICE-INTENT は,従来の LLM と既存の LLM の両言語ミリースにおける大幅な拡張を図り,ロバストなバイリンガルデータによる財務NLP の正確性と有効性に対する大きな影響を浮き彫りにした。

While the progression of Large Language Models (LLMs) has notably propelled financial analysis, their application has largely been confined to singular language realms, leaving untapped the potential of bilingual Chinese-English capacity. To bridge this chasm, we introduce ICE-PIXIU, seamlessly amalgamating the ICE-INTENT model and ICE-FLARE benchmark for bilingual financial analysis. ICE-PIXIU uniquely integrates a spectrum of Chinese tasks, alongside translated and original English datasets, enriching the breadth and depth of bilingual financial modeling. It provides unrestricted access to diverse model variants, a substantial compilation of diverse cross-lingual and multi-modal instruction data, and an evaluation benchmark with expert annotations, comprising 10 NLP tasks, 20 bilingual specific tasks, totaling 95k datasets. Our thorough evaluation emphasizes the advantages of incorporating these bilingual datasets, especially in translation tasks and utilizing original English data, enhancing both linguistic flexibility and analytical acuity in financial contexts. Notably, ICE-INTENT distinguishes itself by showcasing significant enhancements over conventional LLMs and existing financial LLMs in bilingual milieus, underscoring the profound impact of robust bilingual data on the accuracy and efficacy of financial NLP.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# 対称性の不変性による比抵抗の量子化

Quantization of resistivity as consequence of symmetry invariance ( http://arxiv.org/abs/2403.06287v2 )

ライセンス: Link先を確認
Jorge A. Lizarraga, (参考訳) 磁場がランダウのゲージによって記述されるとき、系の保存演算子に基づいて、電磁場の影響下での電子の「オーディンガー方程式」を解析する。 ローレンツ力は、2つの保存された一般運動量作用素: 1 が$x$-軸に、もう1 が$y$-軸に、もう1 が$y$-軸に、そのシステムが完全に記述できない場合にのみ回復できることが示されている。 得られた一般解に基づいて、単元変換の下で不変であるときに、フォン・クリッツィーズ定数の整数倍数に比例する量子化された比抵抗を持つ特性を持つ基底状態が構築される。

The Schr\"odinger equation for an electron under the influence of an electromagnetic field is analyzed based on the conserved operators of the system when the magnetic field is described by Landau's gauge. It is shown that the Lorentz force can be recovered only if two conserved generalized momentum operators are considered: one along the $x$-axis and the second one along $y$-axis; otherwise, the system cannot be fully described. Based on the general solution found, a ground state is built which has the characteristic of having quantized resistivity proportional to integer multiples of the von Klitzing's constant when it is invariant under a unitary transform.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# 高強度レーザーによる光間散乱測定のための暗視野設定

A dark-field setup for the measurement of light-by-light scattering with high-intensity lasers ( http://arxiv.org/abs/2403.06762v2 )

ライセンス: Link先を確認
Fabian Schütze, Leonard Doyle, Jörg Schreiber, Matt Zepf, Felix Karbstein, (参考訳) 我々は、ペタワット級レーザーシステムを操作する最先端高磁場施設において、2つの光高強度レーザービームの衝突時の光散乱を測定するための具体的な実験装置を提出した。 我々の装置は、両レーザビームが衝突するのと同じ集光光学を用いており、大きな背景が存在する場合の単一光子レベルの非線形量子真空応答を検出するために暗視野のアプローチを採用している。 特に、衝突するレーザー場の高度なモデリングに基づいて、様々なレーザー偏光のために暗視野に散乱する信号光子の確率を推定する。

We put forward a concrete experimental setup allowing to measure light-by-light scattering in the collision of two optical high-intensity laser beams at state-of-the-art high-field facilities operating petawatt class laser systems. Our setup uses the same focusing optics for both laser beams to be collided and employs a dark-field approach for the detection of the single-photon-level nonlinear quantum vacuum response in the presence of a large background. Based on an advanced modeling of the colliding laser fields, we in particular provide reliable estimates for the prospective numbers of signal photons scattered into the dark-field for various laser polarizations.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# ROMEの再構築 : 逐次モデル編集におけるモデル崩壊の解消

Rebuilding ROME : Resolving Model Collapse during Sequential Model Editing ( http://arxiv.org/abs/2403.07175v2 )

ライセンス: Link先を確認
Akshat Gupta, Sidharth Baskaran, Gopala Anumanchipalli, (参考訳) 近年,一般的なモデル編集手法であるRanc-One Model Editing (ROME) を用いた研究は,アルゴリズムがモデルを壊さずに編集できない事実があることを実証している。 このような編集は以前は「無効な編集」と呼ばれていた。 これらの無効な編集は、即座にモデルが崩壊し、逐次編集にROMEの使用を制限する。 本稿では,ROMEの実装において,編集の無効化は不規則な成果であることを示す。 本稿では、r-ROMEと呼ばれるROMEのより安定した実装を提供し、r-ROMEで大規模な逐次編集を行う場合、モデル崩壊はもはや観測されないことを示すとともに、ROMEのオリジナルの実装と比較してモデル編集の一般化と局所性をさらに向上させる。 また、編集を無効にする理由を数学的に詳細に説明する。

Recent work using Rank-One Model Editing (ROME), a popular model editing method, has shown that there are certain facts that the algorithm is unable to edit without breaking the model. Such edits have previously been called disabling edits. These disabling edits cause immediate model collapse and limits the use of ROME for sequential editing. In this paper, we show that disabling edits are an artifact of irregularities in the implementation of ROME. With this paper, we provide a more stable implementation ROME, which we call r-ROME and show that model collapse is no longer observed when making large scale sequential edits with r-ROME, while further improving generalization and locality of model editing compared to the original implementation of ROME. We also provide a detailed mathematical explanation of the reason behind disabling edits.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# Gemma: Geminiリサーチと技術に基づくオープンモデル

Gemma: Open Models Based on Gemini Research and Technology ( http://arxiv.org/abs/2403.08295v4 )

ライセンス: Link先を確認
Gemma Team, Thomas Mesnard, Cassidy Hardin, Robert Dadashi, Surya Bhupatiraju, Shreya Pathak, Laurent Sifre, Morgane Rivière, Mihir Sanjay Kale, Juliette Love, Pouya Tafti, Léonard Hussenot, Pier Giuseppe Sessa, Aakanksha Chowdhery, Adam Roberts, Aditya Barua, Alex Botev, Alex Castro-Ros, Ambrose Slone, Amélie Héliou, Andrea Tacchetti, Anna Bulanova, Antonia Paterson, Beth Tsai, Bobak Shahriari, Charline Le Lan, Christopher A. Choquette-Choo, Clément Crepy, Daniel Cer, Daphne Ippolito, David Reid, Elena Buchatskaya, Eric Ni, Eric Noland, Geng Yan, George Tucker, George-Christian Muraru, Grigory Rozhdestvenskiy, Henryk Michalewski, Ian Tenney, Ivan Grishchenko, Jacob Austin, James Keeling, Jane Labanowski, Jean-Baptiste Lespiau, Jeff Stanway, Jenny Brennan, Jeremy Chen, Johan Ferret, Justin Chiu, Justin Mao-Jones, Katherine Lee, Kathy Yu, Katie Millican, Lars Lowe Sjoesund, Lisa Lee, Lucas Dixon, Machel Reid, Maciej Mikuła, Mateo Wirth, Michael Sharman, Nikolai Chinaev, Nithum Thain, Olivier Bachem, Oscar Chang, Oscar Wahltinez, Paige Bailey, Paul Michel, Petko Yotov, Rahma Chaabouni, Ramona Comanescu, Reena Jana, Rohan Anil, Ross McIlroy, Ruibo Liu, Ryan Mullins, Samuel L Smith, Sebastian Borgeaud, Sertan Girgin, Sholto Douglas, Shree Pandya, Siamak Shakeri, Soham De, Ted Klimenko, Tom Hennigan, Vlad Feinberg, Wojciech Stokowiec, Yu-hui Chen, Zafarali Ahmed, Zhitao Gong, Tris Warkentin, Ludovic Peran, Minh Giang, Clément Farabet, Oriol Vinyals, Jeff Dean, Koray Kavukcuoglu, Demis Hassabis, Zoubin Ghahramani, Douglas Eck, Joelle Barral, Fernando Pereira, Eli Collins, Armand Joulin, Noah Fiedel, Evan Senter, Alek Andreev, Kathleen Kenealy, (参考訳) Gemmaは、Geminiモデルを作成するために使用される研究と技術から構築された、軽量で最先端のオープンモデルのファミリーである。 Gemmaモデルは、言語理解、推論、安全性のための学術ベンチマークで強力なパフォーマンスを示している。 モデルのサイズは2つ(20億と70億のパラメータ)、事前訓練されたチェックポイントと微調整されたチェックポイントの両方を提供する。 Gemmaは18のテキストベースタスクのうち11のオープンモデルにおいて、同様のサイズのオープンモデルよりも優れており、モデル開発の詳細な説明とともに、モデルの安全性と責任の側面を包括的に評価する。 LLMの責任あるリリースは、フロンティアモデルの安全性を改善し、LLMイノベーションの次の波を可能にするために重要であると考えています。

This work introduces Gemma, a family of lightweight, state-of-the art open models built from the research and technology used to create Gemini models. Gemma models demonstrate strong performance across academic benchmarks for language understanding, reasoning, and safety. We release two sizes of models (2 billion and 7 billion parameters), and provide both pretrained and fine-tuned checkpoints. Gemma outperforms similarly sized open models on 11 out of 18 text-based tasks, and we present comprehensive evaluations of safety and responsibility aspects of the models, alongside a detailed description of model development. We believe the responsible release of LLMs is critical for improving the safety of frontier models, and for enabling the next wave of LLM innovations.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# ProSwitch: 専門的および非専門的なスタイルのテキストを生成するための知識ガイド型インストラクションチューニング

ProSwitch: Knowledge-Guided Instruction Tuning to Generate Professional and Non-Professional Styled Text ( http://arxiv.org/abs/2403.09131v3 )

ライセンス: Link先を確認
Chang Zong, Yuyan Chen, Weiming Lu, Jian Shao, Yueting Zhuang, (参考訳) 大規模言語モデル(LLM)は、テキスト要約や制御されたテキスト生成など、様々な言語応用において有効であることを示す。 しかし、細調整によってスタイルを切り替える能力についての研究は、いまだに過小評価されている。 本研究は、テキストプロフェッショナル主義に焦点をあて、知識誘導型指導チューニングを通じて専門的・非専門的応答を生成できる言語モデルを備えたProSwitchという新しい方法論を導入する。 ProSwitchは、ドメイン知識とトレーニングコーパスを収集するためのデータ準備、複数のレベルの命令形式で言語モデルを最適化するための命令チューニング、生成したテキストのプロフェッショナル差別と参照ベースの品質を評価するための包括的な評価の3段階に展開する。 汎用言語モデルと特殊言語モデルの比較分析により,プロと非プロのテキスト生成の切り替えにおいて,本手法がベースラインを上回っていることが判明した。

Large Language Models (LLMs) have demonstrated efficacy in various linguistic applications, including text summarization and controlled text generation. However, studies into their capacity of switching between styles via fine-tuning remain underexplored. This study concentrates on textual professionalism and introduces a novel methodology, named ProSwitch, which equips a language model with the ability to produce both professional and non-professional responses through knowledge-guided instruction tuning. ProSwitch unfolds across three phases: data preparation for gathering domain knowledge and training corpus; instruction tuning for optimizing language models with multiple levels of instruction formats; and comprehensive evaluation for assessing the professionalism discrimination and reference-based quality of generated text. Comparative analysis of ProSwitch against both general and specialized language models reveals that our approach outperforms baselines in switching between professional and non-professional text generation.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# 単フラッグシンドロームチェックを併用したSteane符号

Concatenated Steane code with single-flag syndrome checks ( http://arxiv.org/abs/2403.09978v2 )

ライセンス: Link先を確認
Balint Pato, Theerapat Tansuwannont, Kenneth R. Brown, (参考訳) 量子コンピュータの短期実装において,エラー抑制率とオーバーヘッドの低いFTECプロトコルが望ましい。 本研究では,[49,1,9]連結Steane符号のための距離保存フラグFTECプロトコルを開発した。 我々は,[Phys. A 104, 042410 (2021)] からウェイトパリティ誤り訂正(WPEC) 法を一般化し,2つのアンシラ量子ビットによるシンドローム抽出を可能にする連結ステアン符号のフラグ回路のゲート順序を求める。 FTECプロトコルは[arXiv:2306.12862]で開発されたFTECフラグの最適化ツールを用いて構築され、アイドリングノイズのない回路レベルのノイズモデルの下でシミュレートされる。 我々のシミュレーションでは、[[49,1,9]の連結されたSteane符号に対して1.64 \times 10^{-3}$の擬似閾値を与え、[[61,1,9]の6.6.6色符号に対して1.43 \times 10^{-3}$の擬似閾値よりも優れている。 これは[61,1,9]コードのパフォーマンスが向上するコードキャパシティモデルとは対照的である。

A fault-tolerant error correction (FTEC) protocol with a high error suppression rate and low overhead is very desirable for the near-term implementation of quantum computers. In this work, we develop a distance-preserving flag FTEC protocol for the [[49,1,9]] concatenated Steane code, which requires only two ancilla qubits per generator and can be implemented on a planar layout. We generalize the weight-parity error correction (WPEC) technique from [Phys. Rev. A 104, 042410 (2021)] and find a gate ordering of flag circuits for the concatenated Steane code which makes syndrome extraction with two ancilla qubits per generator possible. The FTEC protocol is constructed using the optimization tools for flag FTEC developed in [arXiv:2306.12862] and is simulated under the circuit-level noise model without idling noise. Our simulations give a pseudothreshold of $1.64 \times 10^{-3}$ for the [[49,1,9]] concatenated Steane code, which is better than a pseudothreshold of $1.43 \times 10^{-3}$ for the [[61,1,9]] 6.6.6 color code simulated under the same settings. This is in contrast to the code capacity model where the [[61,1,9]] code performs better.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# 予算リサイクルの差別化

Budget Recycling Differential Privacy ( http://arxiv.org/abs/2403.11445v3 )

ライセンス: Link先を確認
Bo Jiang, Jian Du, Sagar Shamar, Qiang Yan, (参考訳) 差分プライバシー(DP)メカニズムは通常、厳格なプライバシー予算のために"アウト・オブ・バウンド"ノイズのある結果を生成することによって、データユーティリティを強制的に削減する。 本稿では,既存のDPメカニズムに対して,ソフトバウンドなノイズ出力を提供するために,BR-DP(Budgetcycle Differential Privacy)フレームワークを導入する。 ソフトバウンド”では、事前に定義されたエラー境界内でほとんどのアウトプットを解放し、ユーティリティを改善し、同時にプライバシを維持するメカニズムの能力について言及する。 BR-DPのコアは2つのコンポーネントから構成される: 繰り返しごとにノイズの答えを生成するDPカーネルと、ノイズの答えを確率的にリサイクルまたは再生するリサイクル器である。 我々は, BR-DP のプライバシ会計を探求し, DP カーネルとリサイクルシステムの間で利用可能な予算を最適にサブアロケーションする予算策定の原則を策定する。 さらに, 構成シナリオにおけるBR-DPの厳密な会計アルゴリズムを導入し, BR-DPは, DPに比べてプライバシー漏洩後のコンポジションの低減を実現していることを示す。 さらに、BR-DPフレームワーク内でのサブサンプリングによるプライバシアンプリフィケーションの概念について検討し、様々なクエリに対するBR-DPの最適なサンプリングレートを提案する。 実データを用いて実験を行い, BR-DPがDP機構によって提供されるユーティリティ・プライバシ・トレードオフを解除する効果を実証した。

Differential Privacy (DP) mechanisms usually {force} reduction in data utility by producing "out-of-bound" noisy results for a tight privacy budget. We introduce the Budget Recycling Differential Privacy (BR-DP) framework, designed to provide soft-bounded noisy outputs for a broad range of existing DP mechanisms. By "soft-bounded," we refer to the mechanism's ability to release most outputs within a predefined error boundary, thereby improving utility and maintaining privacy simultaneously. The core of BR-DP consists of two components: a DP kernel responsible for generating a noisy answer per iteration, and a recycler that probabilistically recycles/regenerates or releases the noisy answer. We delve into the privacy accounting of BR-DP, culminating in the development of a budgeting principle that optimally sub-allocates the available budget between the DP kernel and the recycler. Furthermore, we introduce algorithms for tight BR-DP accounting in composition scenarios, and our findings indicate that BR-DP achieves reduced privacy leakage post-composition compared to DP. Additionally, we explore the concept of privacy amplification via subsampling within the BR-DP framework and propose optimal sampling rates for BR-DP across various queries. We experiment with real data, and the results demonstrate BR-DP's effectiveness in lifting the utility-privacy tradeoff provided by DP mechanisms.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# ニューロン中心のヘビアンラーニング

Neuron-centric Hebbian Learning ( http://arxiv.org/abs/2403.12076v2 )

ライセンス: Link先を確認
Andrea Ferigo, Elia Cunegatti, Giovanni Iacca, (参考訳) 脳の学習メカニズムの背後にある最も顕著な能力の1つは、そのシナプスの構造的、機能的可塑性の適応である。 シナプスは脳全体に情報を伝達する基本的な役割を持っているが、いくつかの研究はシナプスに変化をもたらすニューロンの活性化であることを示している。 しかし、ニューラルネット(NN)のために考案されたほとんどの塑性モデルは、例えばABCDルールでは、ニューロンよりもシナプスに重点を置いており、したがってシナプス固有のヘビアンパラメータを最適化している。 しかし、このアプローチは、各シナプスが複数のヘビアンパラメータに関連付けられているため、最適化プロセスの複雑さを増大させる。 この制限を克服するために,神経中心型ヘビアンラーニング(NcHL)と呼ばれる新しい塑性モデルを提案する。 ABCD法則と比較すると、NcHLはパラメータを5W$から5N$に減らし、重量とニューロンの数に$W$と$N$、通常$N \ll W$に減らしている。 また、ニューロンの活性化の記録に基づいて重みを近似することにより、より少ないメモリを必要とする「太い」NcHLモデルも考案した。 2つのロボット移動タスクの実験により、NcHLは最大$\sim97$のパラメータを使用せずにABCDのルールに相容れない性能を示し、スケーラブルな可塑性を可能にした。

One of the most striking capabilities behind the learning mechanisms of the brain is the adaptation, through structural and functional plasticity, of its synapses. While synapses have the fundamental role of transmitting information across the brain, several studies show that it is the neuron activations that produce changes on synapses. Yet, most plasticity models devised for artificial Neural Networks (NNs), e.g., the ABCD rule, focus on synapses, rather than neurons, therefore optimizing synaptic-specific Hebbian parameters. This approach, however, increases the complexity of the optimization process since each synapse is associated to multiple Hebbian parameters. To overcome this limitation, we propose a novel plasticity model, called Neuron-centric Hebbian Learning (NcHL), where optimization focuses on neuron- rather than synaptic-specific Hebbian parameters. Compared to the ABCD rule, NcHL reduces the parameters from $5W$ to $5N$, being $W$ and $N$ the number of weights and neurons, and usually $N \ll W$. We also devise a ``weightless'' NcHL model, which requires less memory by approximating the weights based on a record of neuron activations. Our experiments on two robotic locomotion tasks reveal that NcHL performs comparably to the ABCD rule, despite using up to $\sim97$ times less parameters, thus allowing for scalable plasticity
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# AFLoRA:大規模モデルのパラメータ効率の良い微調整における低ランク適応の適応凍結

AFLoRA: Adaptive Freezing of Low Rank Adaptation in Parameter Efficient Fine-Tuning of Large Models ( http://arxiv.org/abs/2403.13269v3 )

ライセンス: Link先を確認
Zeyu Liu, Souvik Kundu, Anni Li, Junrui Wan, Lianghao Jiang, Peter Anthony Beerel, (参考訳) 低ランク適応の適応凍結(AFLoRA)と呼ばれる,パラメータ効率の良いファインチューニング(PEFT)手法を提案する。 具体的には、トレーニング済みの凍結荷重テンソルに対して、トレーニング可能な低ランク行列の平行経路、すなわち下向きの射影行列と上向きの射影行列を加算し、それぞれに特徴変換ベクトルを付加する。 新たな凍結スコアに基づいて、微調整中にこれらのプロジェクション行列を漸進的に凍結し、計算を減らし、過度な適合を緩和する。 実験の結果,平均トレーニング可能なパラメータを最大9.5倍に減らしながら,GLUEベンチマークで評価した値の0.85倍%の平均改善を達成できることが確認された。 ランタイムに関しては比較するが、AFLoRAは類似のPEFT代替品に比べて最大$1.86\times$改善できる。 提案手法の実用性に加えて,異なるモジュールにおけるLORAパスのトレーニング性要件と,異なるプロジェクション行列の凍結スケジュールについて考察する。 コードはリリースされる。

We present a novel Parameter-Efficient Fine-Tuning (PEFT) method, dubbed as Adaptive Freezing of Low Rank Adaptation (AFLoRA). Specifically, for each pre-trained frozen weight tensor, we add a parallel path of trainable low-rank matrices, namely a down-projection and an up-projection matrix, each of which is followed by a feature transformation vector. Based on a novel freezing score, we the incrementally freeze these projection matrices during fine-tuning to reduce the computation and alleviate over-fitting. Our experimental results demonstrate that we can achieve state-of-the-art performance with an average improvement of up to $0.85\%$ as evaluated on GLUE benchmark while yeilding up to $9.5\times$ fewer average trainable parameters. While compared in terms of runtime, AFLoRA can yield up to $1.86\times$ improvement as opposed to similar PEFT alternatives. Besides the practical utility of our approach, we provide insights on the trainability requirements of LoRA paths at different modules and the freezing schedule for the different projection matrices. Code will be released.
翻訳日:2024-04-17 22:36:28 公開日:2024-04-16
# マルチロボットコネクテッド・ファーマスパイラルカバー

Multi-Robot Connected Fermat Spiral Coverage ( http://arxiv.org/abs/2403.13311v3 )

ライセンス: Link先を確認
Jingtao Tang, Hang Ma, (参考訳) 我々は,コンピュータグラフィックスコミュニティからのコネクテッド・ファーマ・スパイラル(CFS)を,初めてマルチロボット協調に適応させる,MCPP(Multi-Robot Connected Fermat Spiral)という,マルチロボット被覆パス計画(MCPP)のための新しいアルゴリズムフレームワークを紹介した。 MCFSは、複数のロボットのオーケストレーションによって、任意の形の障害物を取り巻くカバレッジパスを生成することができる。 また,作業空間を分解することなくスムーズな経路を生成することで,非ホロノミックロボットにとって重要な経路連続性と曲率の課題にも対処する。 MCFSは、MCPPのグラフを構築し、MCPPを組合せ最適化問題に変換することでMCPPを解く。 我々の貢献は、スケーラブルで適応可能なMCPPのための統一CFSバージョンの開発、コスト削減とパス継続性、滑らか性のための新しい最適化手法によるMCPPへの拡張、MCFSが既存のMCPP法をメイスパン、パス曲率、カバレッジ比、オーバーラップ比で上回ることを示す広範な実験などである。 我々の研究はMCPPにおける重要なステップであり、複雑な環境下でのマルチロボットシステムの能力向上のために、コンピュータグラフィックスと自動計画原則の融合を示すものである。 私たちのコードはhttps://github.com/reso1/MCFSで利用可能です。

We introduce the Multi-Robot Connected Fermat Spiral (MCFS), a novel algorithmic framework for Multi-Robot Coverage Path Planning (MCPP) that adapts Connected Fermat Spiral (CFS) from the computer graphics community to multi-robot coordination for the first time. MCFS uniquely enables the orchestration of multiple robots to generate coverage paths that contour around arbitrarily shaped obstacles, a feature that is notably lacking in traditional methods. Our framework not only enhances area coverage and optimizes task performance, particularly in terms of makespan, for workspaces rich in irregular obstacles but also addresses the challenges of path continuity and curvature critical for non-holonomic robots by generating smooth paths without decomposing the workspace. MCFS solves MCPP by constructing a graph of isolines and transforming MCPP into a combinatorial optimization problem, aiming to minimize the makespan while covering all vertices. Our contributions include developing a unified CFS version for scalable and adaptable MCPP, extending it to MCPP with novel optimization techniques for cost reduction and path continuity and smoothness, and demonstrating through extensive experiments that MCFS outperforms existing MCPP methods in makespan, path curvature, coverage ratio, and overlapping ratio. Our research marks a significant step in MCPP, showcasing the fusion of computer graphics and automated planning principles to advance the capabilities of multi-robot systems in complex environments. Our code is available at https://github.com/reso1/MCFS.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# ChatGPTはディープフェイクを検出できるか? : メディアフォサイシクスにおける多モーダル大言語モデルを用いた検討

Can ChatGPT Detect DeepFakes? A Study of Using Multimodal Large Language Models for Media Forensics ( http://arxiv.org/abs/2403.14077v3 )

ライセンス: Link先を確認
Shan Jia, Reilin Lyu, Kangran Zhao, Yize Chen, Zhiyuan Yan, Yan Ju, Chuanbo Hu, Xin Li, Baoyuan Wu, Siwei Lyu, (参考訳) AI生成メディアコンテンツを指すDeepFakesは、偽情報の手段としての利用が懸念されている。 DeepFakesの検出は現在、プログラムされた機械学習アルゴリズムで解決されている。 本研究では,DeepFake検出におけるマルチモーダル大言語モデル(LLM)の機能について検討する。 我々は,マルチモーダルLLMを実証するために定性的かつ定量的な実験を行い,慎重に設計し,迅速な技術によってAI生成画像を公開できることを実証した。 LLMは本質的にはメディアの法医学的タスクに向いておらず、そのプロセスはプログラミングを必要としないことを考慮すれば興味深い。 本稿では,これらのタスクに対するマルチモーダル LLM の限界について論じ,改善の可能性を提案する。

DeepFakes, which refer to AI-generated media content, have become an increasing concern due to their use as a means for disinformation. Detecting DeepFakes is currently solved with programmed machine learning algorithms. In this work, we investigate the capabilities of multimodal large language models (LLMs) in DeepFake detection. We conducted qualitative and quantitative experiments to demonstrate multimodal LLMs and show that they can expose AI-generated images through careful experimental design and prompt engineering. This is interesting, considering that LLMs are not inherently tailored for media forensic tasks, and the process does not require programming. We discuss the limitations of multimodal LLMs for these tasks and suggest possible improvements.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# エルゴディディティ破壊のプローブとしてのクリロフ局在

Krylov localization as a probe for ergodicity breaking ( http://arxiv.org/abs/2403.14384v2 )

ライセンス: Link先を確認
Heiko Georg Menzler, Rishabh Jha, (参考訳) クリロフ複雑性は、最近、非対角作用素ランツォス係数の観点から、時間における作用素の複雑さの増大を測定することに注目されている。 演算子ランツォスアルゴリズムは、複雑性成長の問題を1粒子半無限強結合鎖(クリロフ連鎖として知られる)に還元する。 アンダーソン局在化現象を用いて、弱エルゴディディディティ破壊を検出するプローブとして、クリロフ鎖上の逆局在化長を提案する。 クリロフ連鎖上では、SYKモデルで示されるように、エルゴード系における非局在化と、弱いエルゴード性破壊系における局所化を見出す。 揺らぎ以外の力学を考えると、弱いエルゴディディディティ破壊の時点で、異なるシステムサイズにまたがる崩壊が定量的な予測に繋がる。 さらに、スクランブル力学を超えたエルゴード的状態における異なる作用素の普遍的特性を示す。 我々は,(1)結合SYKモデル,(2)量子東モデルという2つの設定を検証した。 本研究は, エルゴディディティ/弱エルゴディディティ-ブレーキング遷移をクリロフ鎖上の非局在化/局在化現象へマッピングするための道を開いた。

Krylov complexity has recently gained attention where the growth of operator complexity in time is measured in terms of the off-diagonal operator Lanczos coefficients. The operator Lanczos algorithm reduces the problem of complexity growth to a single-particle semi-infinite tight-binding chain (known as the Krylov chain). Employing the phenomenon of Anderson localization, we propose the inverse localization length on the Krylov chain as a probe to detect weak ergodicity-breaking. On the Krylov chain we find delocalization in an ergodic regime, as we show for the SYK model, and localization in case of a weakly ergodicity-broken regime. Considering the dynamics beyond scrambling, we find a collapse across different system sizes at the point of weak ergodicity-breaking leading to a quantitative prediction. We further show universal traits of different operators in the ergodic regime beyond the scrambling dynamics. We test for two settings: (1) the coupled SYK model, and (2) the quantum East model. Our findings open avenues for mapping ergodicity/weak ergodicity-breaking transitions to delocalization/localization phenomenology on the Krylov chain.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# DP-RDM:微調整なしでドメインに拡散モデルを適用する

DP-RDM: Adapting Diffusion Models to Private Domains Without Fine-Tuning ( http://arxiv.org/abs/2403.14421v2 )

ライセンス: Link先を確認
Jonathan Lebensold, Maziar Sanjabi, Pietro Astolfi, Adriana Romero-Soriano, Kamalika Chaudhuri, Mike Rabbat, Chuan Guo, (参考訳) テキストと画像の拡散モデルはサンプルレベルの記憶に悩まされ、訓練されている画像のほぼ完璧な複製を再現する可能性があるが、それは望ましくないかもしれない。 この問題を解決するために、我々は、プライバシー保証を提供しながら高品質な画像サンプルを生成することができる最初の差分プライベート(DP)検索拡張生成アルゴリズムを開発した。 具体的には、少量の公開データに基づいて訓練されたテキスト間拡散モデルへのアクセスを想定し、DP検索機構を設計し、プライベート検索データセットから検索したサンプルを用いてテキストプロンプトを増強する。 我々は,検索データセットの微調整を必要とせず,最新の生成モデルを用いて,厳密なDP保証を満足しつつ高品質な画像サンプルを生成することができる。 例えば、MS-COCOで評価すると、DP-RDMはプライバシー予算が$\epsilon=10$のサンプルを生成できます。

Text-to-image diffusion models have been shown to suffer from sample-level memorization, possibly reproducing near-perfect replica of images that they are trained on, which may be undesirable. To remedy this issue, we develop the first differentially private (DP) retrieval-augmented generation algorithm that is capable of generating high-quality image samples while providing provable privacy guarantees. Specifically, we assume access to a text-to-image diffusion model trained on a small amount of public data, and design a DP retrieval mechanism to augment the text prompt with samples retrieved from a private retrieval dataset. Our \emph{differentially private retrieval-augmented diffusion model} (DP-RDM) requires no fine-tuning on the retrieval dataset to adapt to another domain, and can use state-of-the-art generative models to generate high-quality image samples while satisfying rigorous DP guarantees. For instance, when evaluated on MS-COCO, our DP-RDM can generate samples with a privacy budget of $\epsilon=10$, while providing a $3.5$ point improvement in FID compared to public-only retrieval for up to $10,000$ queries.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# 銀のスポンで生まれる : 大規模言語モデルにおける社会経済バイアスの調査

Born With a Silver Spoon? Investigating Socioeconomic Bias in Large Language Models ( http://arxiv.org/abs/2403.14633v3 )

ライセンス: Link先を確認
Smriti Singh, Shuvam Keshari, Vinija Jain, Aman Chadha, (参考訳) 社会経済の偏見は格差を増し、個人の経済的・社会的背景に基づく機会や資源へのアクセスに影響を及ぼす。 この広範囲にわたる問題は、社会としての包括的進歩の追求を妨げる、体系的な不平等を持続させる。 本稿では,大規模言語モデルにおける社会経済バイアスの存在について検討する。 この目的のために, 未成年者が倫理的に曖昧な行動を行うという仮説上のシナリオを示す3000のサンプルからなる新しいデータセットSilverSpoonを導入し, 倫理的に正当化されるか否かを問う。 さらに、このデータセットには二重ラベル方式があり、社会経済スペクトルの両端に属する人々によって注釈付けされている。 我々はSilverSpoonを用いて,大規模言語モデルで表現される社会経済バイアスの度合いと,この度合いの変動をモデルサイズの関数として評価した。 我々はまた、このバイアスの性質を分析するために定性的分析を行う。 分析の結果, 社会的に劣悪な言語モデルでは, 社会経済的に劣悪な言語モデルに共感できないことが判明した。 この領域のさらなる研究を促進するため、SilverSpoonと評価ハーネスを公開しています。

Socioeconomic bias in society exacerbates disparities, influencing access to opportunities and resources based on individuals' economic and social backgrounds. This pervasive issue perpetuates systemic inequalities, hindering the pursuit of inclusive progress as a society. In this paper, we investigate the presence of socioeconomic bias, if any, in large language models. To this end, we introduce a novel dataset SilverSpoon, consisting of 3000 samples that illustrate hypothetical scenarios that involve underprivileged people performing ethically ambiguous actions due to their circumstances, and ask whether the action is ethically justified. Further, this dataset has a dual-labeling scheme and has been annotated by people belonging to both ends of the socioeconomic spectrum. Using SilverSpoon, we evaluate the degree of socioeconomic bias expressed in large language models and the variation of this degree as a function of model size. We also perform qualitative analysis to analyze the nature of this bias. Our analysis reveals that while humans disagree on which situations require empathy toward the underprivileged, most large language models are unable to empathize with the socioeconomically underprivileged regardless of the situation. To foster further research in this domain, we make SilverSpoon and our evaluation harness publicly available.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# 画像合成パーソナライズのための生成能動学習

Generative Active Learning for Image Synthesis Personalization ( http://arxiv.org/abs/2403.14987v2 )

ライセンス: Link先を確認
Xulu Zhang, Wengyu Zhang, Xiao-Yong Wei, Jinlin Wu, Zhaoxiang Zhang, Zhen Lei, Qing Li, (参考訳) 本稿では,従来の識別モデルを用いて研究されてきたアクティブラーニングを生成モデルに適用するパイロット研究について述べる。 具体的には、画像合成パーソナライズタスクに焦点を当てる。 生成モデルにおいてアクティブな学習を行う上での最大の課題は、単一の概念をターゲットとする識別モデルにおけるクローズドなクエリ形式とは異なる、クエリのオープンな性質にある。 問合せ処理を半開問題に変換するために,アンカー方向の概念を導入する。 そこで本稿では,創発的アクティブラーニングを可能にする方向ベース不確実性サンプリング戦略を提案し,活用探索ジレンマに対処する。 提案手法の有効性を検証するため,GoogleのStyleDropのような大企業が開発したクローズドソースモデルと比較して,オープンソースモデルの方が優れた性能が得られることを示した。 ソースコードはhttps://github.com/zhangxulu1996/GAL4Personalizationで公開されている。

This paper presents a pilot study that explores the application of active learning, traditionally studied in the context of discriminative models, to generative models. We specifically focus on image synthesis personalization tasks. The primary challenge in conducting active learning on generative models lies in the open-ended nature of querying, which differs from the closed form of querying in discriminative models that typically target a single concept. We introduce the concept of anchor directions to transform the querying process into a semi-open problem. We propose a direction-based uncertainty sampling strategy to enable generative active learning and tackle the exploitation-exploration dilemma. Extensive experiments are conducted to validate the effectiveness of our approach, demonstrating that an open-source model can achieve superior performance compared to closed-source models developed by large companies, such as Google's StyleDrop. The source code is available at https://github.com/zhangxulu1996/GAL4Personalization.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# ACCESS:安全クリティカルシステムの保証事例中心技術

ACCESS: Assurance Case Centric Engineering of Safety-critical Systems ( http://arxiv.org/abs/2403.15236v2 )

ライセンス: Link先を確認
Ran Wei, Simon Foster, Haitao Mei, Fang Yan, Ruizhe Yang, Ibrahim Habli, Colin O'Halloran, Nick Tudor, Tim Kelly, Yakoub Nemouchi, (参考訳) 保証ケースは、安全性やセキュリティなどの重要なシステム特性について、コミュニケーションし、信頼性を評価するために使用されます。 歴史的に、保証ケースは手作業で作成され、長く複雑なプロセスを通じてシステムステークホルダーによって評価される。 近年,システム保証活動の効率化と品質向上のために,モデルに基づくシステム保証アプローチが普及している。 システムが複雑化するにつれて、開発・検証・検証活動の調整や、相互接続されたシステム保証アーティファクトにおける影響分析の変更など、開発ライフサイクルの管理が課題となる。 さらに、ロボット・自律システム(RAS)が社会に採用されているため、システムの運用期間中の進化を支援するための保証ケースも必要である。 本稿では,安全クリティカルシステムのための技術方法論であるACCESS - Assurance Case Centric Engineering of Safety- critical Systemsを,そのツールサポートとともに,モデルベースの保証ケースの進化に伴う安全クリティカルシステムの開発に貢献する。 モデルベースのシステム保証ケースが異質なエンジニアリングアーティファクト(例えば、システムアーキテクチャモデル、システム安全性分析、システム行動モデルなど)にどのように辿り着くか、そして開発プロセス中に形式的なメソッドをどのように統合するかを示す。 開発と実行の両方で保証ケースを自動的に評価する方法を実証する。 本稿では,AUV(Autonomous Underwater Vehicle)に基づくケーススタディに適用する。

Assurance cases are used to communicate and assess confidence in critical system properties such as safety and security. Historically, assurance cases have been manually created documents, which are evaluated by system stakeholders through lengthy and complicated processes. In recent years, model-based system assurance approaches have gained popularity to improve the efficiency and quality of system assurance activities. This becomes increasingly important, as systems becomes more complex, it is a challenge to manage their development life-cycles, including coordination of development, verification and validation activities, and change impact analysis in inter-connected system assurance artifacts. Moreover, there is a need for assurance cases that support evolution during the operational life of the system, to enable continuous assurance in the face of an uncertain environment, as Robotics and Autonomous Systems (RAS) are adopted into society. In this paper, we contribute ACCESS - Assurance Case Centric Engineering of Safety-critical Systems, an engineering methodology, together with its tool support, for the development of safety critical systems around evolving model-based assurance cases. We show how model-based system assurance cases can trace to heterogeneous engineering artifacts (e.g. system architectural models, system safety analysis, system behaviour models, etc.), and how formal methods can be integrated during the development process. We demonstrate how assurance cases can be automatically evaluated both at development and runtime. We apply our approach to a case study based on an Autonomous Underwater Vehicle (AUV).
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# TrustSQL: さまざまな疑問のあるテキストからSQLモデルに対する信頼性ベンチマーク

TrustSQL: A Reliability Benchmark for Text-to-SQL Models with Diverse Unanswerable Questions ( http://arxiv.org/abs/2403.15879v2 )

ライセンス: Link先を確認
Gyubok Lee, Woosog Chay, Seonhee Cho, Edward Choi, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、自然言語の質問をSQLクエリに翻訳する際の大幅な改善につながっている。 SQL生成において高い精度を達成することは重要であるが、これらのテキスト-SQLモデルが現実世界のデプロイで遭遇するさまざまな種類の問題に確実に対処できる範囲についてはほとんど分かっていない。 この側面を探るため、TrustSQLは、シングルデータベースとクロスデータベースの両方の設定において、テキスト-SQLモデルの信頼性を評価するために設計された新しいベンチマークである。 TrustSQLは2つのアウトプットのうちの1つを提供するためにモデルを必要とする。 1) SQL の予測 2) 生成されたSQLの潜在的なエラーや、解決不可能な質問に直面した場合に、SQLの予測を控える。 モデル評価のために,本課題に特化して設計された様々なモデリング手法について検討する。 1) 応答可能性検出、SQL生成、エラー検出のための別々のモデルを最適化し、単一のパイプラインに統合する。 2) この課題を解決するために単一のモデルを使用する統一的なアプローチを開発する。 我々の新しい信頼性スコアを用いた実験結果から、この課題に対処するには様々な研究領域が関与し、モデル開発のための新たな道を開くことが示されている。 しかし、いずれのメソッドも、すべての質問に対してSQL予測を棄却するナイーブなベースラインの信頼性スコアを、さまざまな罰則で一貫して上回るものはない。

Recent advances in large language models (LLMs) have led to significant improvements in translating natural language questions into SQL queries. While achieving high accuracy in SQL generation is crucial, little is known about the extent to which these text-to-SQL models can reliably handle diverse types of questions encountered during real-world deployment, including unanswerable ones. To explore this aspect, we introduce TrustSQL, a new benchmark designed to assess the reliability of text-to-SQL models in both single-database and cross-database settings. TrustSQL requires models to provide one of two outputs: 1) an SQL prediction or 2) abstention from making an SQL prediction, either due to potential errors in the generated SQL or when faced with unanswerable questions. For model evaluation, we explore various modeling approaches specifically designed for this task: 1) optimizing separate models for answerability detection, SQL generation, and error detection, which are then integrated into a single pipeline; and 2) developing a unified approach that uses a single model to solve this task. Experimental results using our new reliability score show that addressing this challenge involves many different areas of research and opens new avenues for model development. However, none of the methods consistently surpasses the reliability scores of a naive baseline that abstains from SQL predictions for all questions, with varying penalties.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# 法的なアウトカム予測モデルにおける説明可能性に向けて

Towards Explainability in Legal Outcome Prediction Models ( http://arxiv.org/abs/2403.16852v2 )

ライセンス: Link先を確認
Josef Valvoda, Ryan Cotterell, (参考訳) 現在の法的結果予測モデル - 法的なNLPの基盤 - は、彼らの推論を説明していない。 しかし、実際の世界でこれらのモデルを採用するためには、人間の法的なアクターがモデルの判断を理解する必要がある。 慣習法の場合、法律実務者は、前例として知られる過去の事件法を参照して事件の結末を判断する。 そこで我々は,従来のNLPモデルに対する説明可能性の自然な方法として,先例を論じる。 本稿では,法的な結果予測モデルが採用した先例を特定するための新しい手法を提案する。 さらに、法的な先例の分類法を開発することにより、人間の判断とニューラルモデルを比較して、それらが依存する様々な先例のタイプを比較することができる。 モデルが合理的に結果を予測することを学習する一方で、前例の使用は人間の判断とは違い、ということがわかりました。

Current legal outcome prediction models - a staple of legal NLP - do not explain their reasoning. However, to employ these models in the real world, human legal actors need to be able to understand the model's decisions. In the case of common law, legal practitioners reason towards the outcome of a case by referring to past case law, known as precedent. We contend that precedent is, therefore, a natural way of facilitating explainability for legal NLP models. In this paper, we contribute a novel method for identifying the precedent employed by legal outcome prediction models. Furthermore, by developing a taxonomy of legal precedent, we are able to compare human judges and neural models with respect to the different types of precedent they rely on. We find that while the models learn to predict outcomes reasonably well, their use of precedent is unlike that of human judges.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# Rotate to Scan: 医用画像セグメンテーションのためのトリプルSSMモジュール付きUNetライクなマンバ

Rotate to Scan: UNet-like Mamba with Triplet SSM Module for Medical Image Segmentation ( http://arxiv.org/abs/2403.17701v3 )

ライセンス: Link先を確認
Hao Tang, Lianglun Cheng, Guoheng Huang, Zhengguang Tan, Junhao Lu, Kaihong Wu, (参考訳) 画像セグメンテーションは、医療領域内の診断と治療の領域において重要な位置を占める。 従来の畳み込みニューラルネットワーク(CNN)とトランスフォーマーモデルは、この領域で大きな進歩を遂げてきたが、受容野の制限や高いコンピューティングの複雑さのために、依然として課題に直面している。 近年、状態空間モデル(SSM)、特にマンバとその変種は、視覚の分野で顕著な性能を示している。 しかし,それらの特徴抽出法は十分な有効性を持たず,冗長な構造を保ち,パラメータ削減の余地を残している。 従来の空間的・チャネル的アテンション手法により,Triplet Mamba-UNetを提案する。 この手法は残留VSSブロックを利用して集中的な文脈特徴を抽出し、Triplet SSMは空間次元とチャネル次元をまたいだ特徴を融合する。 我々はISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB, Kvasir-Instrumentのデータセットについて実験を行い, 提案したTM-UNetのセグメンテーション性能について検証した。 さらに,従来のVM-UNetと比較して,パラメータの3分の1削減を実現している。

Image segmentation holds a vital position in the realms of diagnosis and treatment within the medical domain. Traditional convolutional neural networks (CNNs) and Transformer models have made significant advancements in this realm, but they still encounter challenges because of limited receptive field or high computing complexity. Recently, State Space Models (SSMs), particularly Mamba and its variants, have demonstrated notable performance in the field of vision. However, their feature extraction methods may not be sufficiently effective and retain some redundant structures, leaving room for parameter reduction. Motivated by previous spatial and channel attention methods, we propose Triplet Mamba-UNet. The method leverages residual VSS Blocks to extract intensive contextual features, while Triplet SSM is employed to fuse features across spatial and channel dimensions. We conducted experiments on ISIC17, ISIC18, CVC-300, CVC-ClinicDB, Kvasir-SEG, CVC-ColonDB, and Kvasir-Instrument datasets, demonstrating the superior segmentation performance of our proposed TM-UNet. Additionally, compared to the previous VM-UNet, our model achieves a one-third reduction in parameters.
翻訳日:2024-04-17 22:26:44 公開日:2024-04-16
# 人間のフィードバックによるアライメントの学習ダイナミクスの理解

Understanding the Learning Dynamics of Alignment with Human Feedback ( http://arxiv.org/abs/2403.18742v4 )

ライセンス: Link先を確認
Shawn Im, Yixuan Li, (参考訳) 大規模言語モデル(LLM)を人間の意図で調整することは、現実世界のシステムにモデルを安全にデプロイするための重要なタスクとなっている。 既存のアライメントアプローチは経験的な成功を見てきたが、これらの手法がモデル行動にどのように影響するか理論的に理解することは未解決の問題である。 我々の研究は、人間の嗜好アライメントの学習力学を理論的に解析するための最初の試みである。 本稿では,嗜好データセットの分布がモデル更新率にどのように影響するかを正式に示すとともに,トレーニング精度に厳密な保証を与える。 我々の理論はまた、最適化がより高い選好性で特定の振る舞いを優先順位付けする傾向がある複雑な現象も明らかにしている。 我々は、現代のLCMとアライメントタスクに関する知見を実証的に検証し、理論的な洞察を強化し、将来のアライメントアプローチの考察に光を当てる。 Disclaimer: この論文には攻撃的なテキストが含まれており、読者の判断は推奨される。

Aligning large language models (LLMs) with human intentions has become a critical task for safely deploying models in real-world systems. While existing alignment approaches have seen empirical success, theoretically understanding how these methods affect model behavior remains an open question. Our work provides an initial attempt to theoretically analyze the learning dynamics of human preference alignment. We formally show how the distribution of preference datasets influences the rate of model updates and provide rigorous guarantees on the training accuracy. Our theory also reveals an intricate phenomenon where the optimization is prone to prioritizing certain behaviors with higher preference distinguishability. We empirically validate our findings on contemporary LLMs and alignment tasks, reinforcing our theoretical insights and shedding light on considerations for future alignment approaches. Disclaimer: This paper contains potentially offensive text; reader discretion is advised.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# 大規模言語モデルは数学問題における不合理性を意識しない

Large Language Models Are Unconscious of Unreasonability in Math Problems ( http://arxiv.org/abs/2403.19346v2 )

ライセンス: Link先を確認
Jingyuan Ma, Damai Dai, Lei Sha, Zhifang Sui, (参考訳) 大規模言語モデル (LLM) は数学の問題を解く上で重要な能力を示す。 しかし、不合理な誤りを含む質問をすると幻覚を起こす傾向がある。 本稿では,不合理な数学問題に直面したLLMの挙動を考察し,これらの問題に対処する可能性について検討する。 我々は,LLMの誤り検出能力を調べるために,不合理数学問題(UMP)ベンチマークを構築した。 実験により、LLMは不合理な誤りを検出することができるが、それでも非幻覚的コンテンツを生成するのに失敗することが示された。 誤り検出と修正の能力を向上させるため,我々はさらにCCC(Critical calculated and Conclusion)と呼ばれる戦略的なプロンプトテンプレートを設計する。 CCCでは、LLMは数学の質問において不合理な誤りを自己評価し、検出し、実用的なアプリケーションシナリオにおいてより信頼性と安全性を高めることができる。

Large language models (LLMs) demonstrate substantial capabilities in solving math problems. However, they tend to produce hallucinations when given questions containing unreasonable errors. In this paper, we study the behavior of LLMs when faced with unreasonable math problems and further explore their potential to address these problems. We construct the Unreasonable Math Problem (UMP) benchmark to examine the error detection ability of LLMs. Experiments show that LLMs are able to detect unreasonable errors, but still fail in generating non-hallucinatory content. In order to improve their ability of error detection and correction, we further design a strategic prompt template called Critical Calculation and Conclusion(CCC). With CCC, LLMs can better self-evaluate and detect unreasonable errors in math questions, making them more reliable and safe in practical application scenarios.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# MR画像からの腰椎椎間板のアーチファクトフリー幾何再構成のための注意型形状変形ネットワーク

Attention-based Shape-Deformation Networks for Artifact-Free Geometry Reconstruction of Lumbar Spine from MR Images ( http://arxiv.org/abs/2404.00231v2 )

ライセンス: Link先を確認
Linchen Qian, Jiasong Chen, Linhai Ma, Timur Urakov, Weiyong Gu, Liang Liang, (参考訳) 腰椎椎間板の進行的構造と損傷である腰椎椎間板変性は腰痛に重要な役割を担っていると考えられている。 MR画像からの腰椎形状自動再構築により, 医療パラメータの迅速測定により, 腰部状態の評価が可能となり, 適切な治療が期待できる。 既存の画像セグメンテーションに基づく技術は、しばしば医療パラメータ測定には適さない誤ったセグメントや非構造化点雲を生成する。 本研究では,患者間の空間的精度とメッシュ対応性で腰椎の形状を再構築する,新しい注意に基づく深層学習手法であるTransDeformerを提案する。 特に,画像のセグメンテーションを必要とせずに形状テンプレート上の点の変位を予測するために,画像特徴とトークン化された輪郭特徴を統合した新しいアテンション式を考案した。 変形テンプレートは、画像内の腰椎の形状を明らかにする。 実験結果から,TransDeformerはアーチファクトフリーな幾何出力を生成し,その変種は再構成された幾何の誤差を予測する。 私たちのコードはhttps://github.com/linchenq/TransDeformer-Meshで利用可能です。

Lumbar disc degeneration, a progressive structural wear and tear of lumbar intervertebral disc, is regarded as an essential role on low back pain, a significant global health concern. Automated lumbar spine geometry reconstruction from MR images will enable fast measurement of medical parameters to evaluate the lumbar status, in order to determine a suitable treatment. Existing image segmentation-based techniques often generate erroneous segments or unstructured point clouds, unsuitable for medical parameter measurement. In this work, we present TransDeformer: a novel attention-based deep learning approach that reconstructs the geometry of the lumbar spine with high spatial accuracy and mesh correspondence across patients, and we also present a variant of TransDeformer for error estimation. Specially, we devise new attention modules with a new attention formula, which integrate image features and tokenized contour features to predict the displacements of the points on a shape template without the need for image segmentation. The deformed template reveals the lumbar spine geometry in an image. Experiment results show that our TransDeformer generates artifact-free geometry outputs, and its variant predicts the error of a reconstructed geometry. Our code is available at https://github.com/linchenq/TransDeformer-Mesh.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# DE-HNN:回路ネットリスト表現のための効果的なニューラルモデル

DE-HNN: An effective neural model for Circuit Netlist representation ( http://arxiv.org/abs/2404.00477v3 )

ライセンス: Link先を確認
Zhishang Luo, Truong Son Hy, Puoya Tabaghi, Donghyeon Koh, Michael Defferrard, Elahe Rezaei, Ryan Carey, Rhett Davis, Rajeev Jain, Yusu Wang, (参考訳) チップ設計で使用される最適化ツールのランタイムは、設計の複雑さによって成長し、ボトルネックとなった1つの設計サイクルを通過するのに数日を要した。 設計者は、設計に対して素早くフィードバックを得られる高速なツールを望んでいる。 過去のデザインからのツールの入力と出力データを使用することで、ツールの実行よりもはるかに短い時間で設計結果を予測する機械学習モデルを構築することができる。 このようなモデルの精度は、通常、デジタル回路の要素とそれらがどのように接続されているかを記述したネットリストである設計データの表現に影響される。 グラフニューラルネットワークとともにネットリストのグラフ表現について,そのようなモデルについて検討した。 しかしながら、ネットリストの特徴は、多数のノードとノード間の長距離相互作用の重要性から、既存のグラフ学習フレームワークにいくつかの課題をもたらす。 これらの課題に対処するために、ネットリストを有向ハイパーグラフとして表現し、(直接)ハイパーグラフを効果的に学習するための指向同変ハイパーグラフニューラルネットワーク(DE-HNN)を提案する。 理論的には、我々のDE-HNNは、ある置換同変および有向超グラフに対して自然な不変性を満たす任意のノードまたはハイパーエッジ基底関数を普遍的に近似できることを示す。 提案したDEC-HNNと、(ハイパー)グラフとネットリストのための複数のSOTA(State-of-the-art)機械学習モデルを比較し、DEC-HNNが入力されたネットリストから直接、最適化された場所と経路のツールの結果を予測する上で、それらを著しく上回っていることを示す。 私たちのソースコードと使用するネットリストデータはhttps://github.com/YusuLab/chips.gitで公開されています。

The run-time for optimization tools used in chip design has grown with the complexity of designs to the point where it can take several days to go through one design cycle which has become a bottleneck. Designers want fast tools that can quickly give feedback on a design. Using the input and output data of the tools from past designs, one can attempt to build a machine learning model that predicts the outcome of a design in significantly shorter time than running the tool. The accuracy of such models is affected by the representation of the design data, which is usually a netlist that describes the elements of the digital circuit and how they are connected. Graph representations for the netlist together with graph neural networks have been investigated for such models. However, the characteristics of netlists pose several challenges for existing graph learning frameworks, due to the large number of nodes and the importance of long-range interactions between nodes. To address these challenges, we represent the netlist as a directed hypergraph and propose a Directional Equivariant Hypergraph Neural Network (DE-HNN) for the effective learning of (directed) hypergraphs. Theoretically, we show that our DE-HNN can universally approximate any node or hyperedge based function that satisfies certain permutation equivariant and invariant properties natural for directed hypergraphs. We compare the proposed DE-HNN with several State-of-the-art (SOTA) machine learning models for (hyper)graphs and netlists, and show that the DE-HNN significantly outperforms them in predicting the outcome of optimized place-and-route tools directly from the input netlists. Our source code and the netlists data used are publicly available at https://github.com/YusuLab/chips.git
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# 準周期ポテンシャルにおけるBloch-Landau-Zener振動

Bloch-Landau-Zener oscillations in a quasi-periodic potential ( http://arxiv.org/abs/2404.00642v2 )

ライセンス: Link先を確認
Henrique C. Prates, Vladimir V. Konotop, (参考訳) ブロッホ振動とランダウ・ツェナートンネルは、周期ハミルトニアンのバンドギャップスペクトルによって持続されるユビキタス現象であり、線形力の作用下での周期ポテンシャルにおける量子粒子やウェーブパケットのダイナミクスで観測できる。 このような物理的な設定は、もはやバンドギャップ構造は存在しないが、周期的ポテンシャルにも意味を持つ。 ここでは、弱い線形力を受ける準周期的な1次元光学格子における非相互作用原子とボース・アインシュタイン凝縮のダイナミクスを考察する。 運動量エッジの下にエネルギーを持つ励起状態、従って空間に局在する状態が考慮される。 観測された振動挙動は、初期状態と座標エネルギー空間の近傍に位置する状態(またはいくつかの状態)とのトンネルによって可能となることを示す。 このようなBloch-Landau-Zener振動に関与する状態は、その空間的近接状態と、エネルギーレベルの交差を避けるために発生する準共鳴状態からなる選択規則によって決定される。 後者の条件はゲルシュゴリン円定理を用いて数学的に定式化される。 原子間相互作用が力学に与える影響も、発展理論の基盤で予測できる。 報告された結果は、支配的ハミルトニアンに非可換性を導入することによって、ブロッホ振動を観測できる任意の物理系で観測することができる。

Bloch oscillations and Landau-Zener tunneling are ubiquitous phenomena which are sustained by a band-gap spectrum of a periodic Hamiltonian and can be observed in dynamics of a quantum particle or a wavepacket in a periodic potential under action of a linear force. Such physical setting remains meaningful for aperiodic potentials too, although band-gap structure does not exist anymore. Here we consider the dynamics of noninteracting atoms and Bose-Einstein condensates in a quasi-periodic one-dimensional optical lattice subjected to a weak linear force. Excited states with energies below the mobility edge, and thus localized in space, are considered. We show that the observed oscillatory behavior is enabled by tunneling between the initial state and a state (or several states) located nearby in the coordinate-energy space. The states involved in such Bloch-Landau-Zener oscillations are determined by the selection rule consisting of the condition of their spatial proximity and condition of quasi-resonances occurring at avoided crossings of the energy levels. The latter condition is formulated mathematically using the Gershgorin circle theorem. The effect of the inter-atomic interactions on the dynamics can also be predicted on the bases of the developed theory. The reported results can be observed in any physical system allowing for observation of the Bloch oscillations, upon introducing incommensurablity in the governing Hamiltonian.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# 音声モデルのスケーリング特性

Scaling Properties of Speech Language Models ( http://arxiv.org/abs/2404.00685v2 )

ライセンス: Link先を確認
Santiago Cuervo, Ricard Marxer, (参考訳) 音声言語モデル(SLM)は、テキストリソースを使わずに、生音声から言語を学ぶことを目的としている。 大幅な進歩にもかかわらず、現在のモデルでは構文と意味能力が弱い。 しかし、ニューラルネットワークモデルのスケーリング特性が音声モダリティを保っている場合、トレーニングに使用する計算量が増加するにつれて、これらの能力は向上する。 本稿では,このスケーリング行動モデルを用いて,テキストベース大規模言語モデル(LLM)の英語習熟度で,現在の手法がSLMを生成するスケールを推定する。 我々は,SLM と LLM における事前学習損失と下流構文と意味的性能との間に強い相関関係を確立し,言語性能の予測可能なスケーリングを実現する。 本研究では,SLMの言語的性能がテキストベースのLLMよりも3桁ほど遅いことを示す。 さらに、意味理解を促進するために設計された合成データの利点と、粗い音声トークン化の効果について検討する。

Speech Language Models (SLMs) aim to learn language from raw audio, without textual resources. Despite significant advances, our current models exhibit weak syntax and semantic abilities. However, if the scaling properties of neural language models hold for the speech modality, these abilities will improve as the amount of compute used for training increases. In this paper, we use models of this scaling behavior to estimate the scale at which our current methods will yield a SLM with the English proficiency of text-based Large Language Models (LLMs). We establish a strong correlation between pre-training loss and downstream syntactic and semantic performance in SLMs and LLMs, which results in predictable scaling of linguistic performance. We show that the linguistic performance of SLMs scales up to three orders of magnitude more slowly than that of text-based LLMs. Additionally, we study the benefits of synthetic data designed to boost semantic understanding and the effects of coarser speech tokenization.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# クラス非依存分布アライメントによる絶対統一型マルチクラス異常検出

Absolute-Unified Multi-Class Anomaly Detection via Class-Agnostic Distribution Alignment ( http://arxiv.org/abs/2404.00724v2 )

ライセンス: Link先を確認
Jia Guo, Haonan Han, Shuai Lu, Weihang Zhang, Huiqi Li, (参考訳) 従来の教師なし異常検出(UAD)メソッドは、各オブジェクトカテゴリごとに別々のモデルを構築する。 近年の研究では、複数のクラス、すなわちモデル統一 UAD に対する統一モデルのトレーニングが提案されている。 しかし、これらの手法は、画像カテゴリが完全に利用できない場合、各異常判定しきい値の推論中に、各クラスに個別に統一モデルを実装する。 本研究では,クラス情報を一切含まない複数クラス異常検出,すなわちtextit{absolute-unified} UADに対処する,単純かつ強力な手法を提案する。 この困難な環境では、さまざまなオブジェクトが異常スコアの分布をミスマッチさせています。 クラス情報を知ることなく,各暗黙のクラス毎のスコア分布を一致させるクラス非依存分布アライメント(CADA, Class-Agnostic Distribution Alignment)を提案する。 CADAの本質は、このクラスの任意の画像、正常または異常なサンプルのそれぞれのクラスのスコア分布を予測することである。 一般的なコンポーネントとして、CADAは絶対統一設定の下でほぼ全てのUADメソッドのポテンシャルを活性化することができる。 我々のアプローチは、MVTec AD と VisA という2つの人気のある UAD ベンチマークデータセットに対して提案された設定の下で広く評価されている。

Conventional unsupervised anomaly detection (UAD) methods build separate models for each object category. Recent studies have proposed to train a unified model for multiple classes, namely model-unified UAD. However, such methods still implement the unified model separately on each class during inference with respective anomaly decision thresholds, which hinders their application when the image categories are entirely unavailable. In this work, we present a simple yet powerful method to address multi-class anomaly detection without any class information, namely \textit{absolute-unified} UAD. We target the crux of prior works in this challenging setting: different objects have mismatched anomaly score distributions. We propose Class-Agnostic Distribution Alignment (CADA) to align the mismatched score distribution of each implicit class without knowing class information, which enables unified anomaly detection for all classes and samples. The essence of CADA is to predict each class's score distribution of normal samples given any image, normal or anomalous, of this class. As a general component, CADA can activate the potential of nearly all UAD methods under absolute-unified setting. Our approach is extensively evaluated under the proposed setting on two popular UAD benchmark datasets, MVTec AD and VisA, where we exceed previous state-of-the-art by a large margin.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# QUSL: 高性能な量子教師なし画像類似学習

QUSL: Quantum Unsupervised Image Similarity Learning with Enhanced Performance ( http://arxiv.org/abs/2404.02028v2 )

ライセンス: Link先を確認
Lian-Hui Yu, Xiao-Yu Li, Geng Chen, Qin-Sheng Zhu, Guo-Wu Yang, (参考訳) 機械学習能力を高めるために量子アドバンテージを活用することは、特に画像の類似性検出のような複雑なタスクにおいて、研究の中心となっている。 量子コンピューティングの可能性を完全に活用するためには、手前のタスクの特定の特性に合わせた量子回路を設計することが不可欠である。 そこで本研究では,新しい量子教師なし類似性学習手法QUSLを提案する。 類似性検出三重項の基礎の上に構築され、アンカー画像の摂動によって正のサンプルを生成するため、QUSLは古典的なオラクルとは独立して動作する。 三重項の性能と量子回路の特性を活用することで、QUSLはメタヒューリスティックアルゴリズムを用いてデータセットの特徴に合わせてカスタマイズされた高性能な量子回路アーキテクチャを体系的に探求し、回路コストを削減して効率的な量子特徴抽出を実現する。 量子コンピュータにおける総合的な数値シミュレーションと実験は、最先端の量子法と比較してQUSLの顕著な性能を示す。 QUSLは、臨界量子資源利用の50%を超える削減を実現し、disC21、COCO、ランドスケープデータセット間の類似性検出相関の最大19.5%の強化を実現している。 これにより、大規模未ラベル画像データの量子資源利用率を低減した効率的な量子類似性モデリングが可能となる。

Leveraging quantum advantages to enhance machine learning capabilities has become a primary focus of research, particularly for complex tasks such as image similarity detection. To fully exploit the potential of quantum computing, it is essential to design quantum circuits tailored to the specific characteristics of the task at hand. In response to this challenge, we propose a novel quantum unsupervised similarity learning method,QUSL. Building upon the foundation of similarity detection triplets and generating positive samples through perturbations of anchor images, QUSL operates independently of classical oracles. By leveraging the performance of triplets and the characteristics of quantum circuits, QUSL systematically explores high-performance quantum circuit architectures customized for dataset features using metaheuristic algorithms, thereby achieving efficient quantum feature extraction with reduced circuit costs. Comprehensive numerical simulations and experiments on quantum computers demonstrate QUSL's remarkable performance compared to state-of-the-art quantum methods. QUSL achieves reductions exceeding 50% in critical quantum resource utilization while also realizing an enhancement of up to 19.5% in similarity detection correlation across the DISC21, COCO, and landscape datasets. This enables efficient quantum similarity modeling for large-scale unlabeled image data with reduced quantum resource utilization.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# LLMテキストのためのトピックベースの透かし

Topic-based Watermarks for LLM-Generated Text ( http://arxiv.org/abs/2404.02138v2 )

ライセンス: Link先を確認
Alexander Nemecek, Yuzhou Jiang, Erman Ayday, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、人間の生成したテキストに匹敵する識別不能なテキスト出力をもたらしている。 ウォーターマーキングアルゴリズムは、LLM生成出力に検出可能なシグネチャを埋め込むことで、LLMと人為的なテキストを区別する方法を提供する潜在的なツールである。 しかし、現在の透かし方式は、透かしアルゴリズムに対する既知の攻撃に対して堅牢性を欠いている。 加えて、LLMは1日に数万のテキスト出力を生成し、ウォーターマーキングアルゴリズムは、その検出のために生成された各出力を記憶する必要がある。 本研究では,現在の透かし方式の限界に着目し,LLMに対する"トピックベース透かしアルゴリズム"の概念を提案する。 提案アルゴリズムは,入力プロンプトの抽出されたトピックや非透かしLLMの出力に基づいて,透かしLLM出力のトークンを生成する方法を決定する。 従来の研究から着想を得て, LLMの透かし出力を生成しながら, 含めるべきトークンや排除すべきトークンを指定したリスト(特定抽出されたトピック(s)に基づいて生成するリスト)のペアを提案する。 提案手法を用いて,透かし検出アルゴリズムの実用性を示す。 さらに,LLMの透かしアルゴリズムに対して出現する広範囲な攻撃と,その利点と損失を考慮に入れた潜在的な攻撃者をモデル化可能な透かし方式の利点について論じる。

Recent advancements of large language models (LLMs) have resulted in indistinguishable text outputs comparable to human-generated text. Watermarking algorithms are potential tools that offer a way to differentiate between LLM- and human-generated text by embedding detectable signatures within LLM-generated output. However, current watermarking schemes lack robustness against known attacks against watermarking algorithms. In addition, they are impractical considering an LLM generates tens of thousands of text outputs per day and the watermarking algorithm needs to memorize each output it generates for the detection to work. In this work, focusing on the limitations of current watermarking schemes, we propose the concept of a "topic-based watermarking algorithm" for LLMs. The proposed algorithm determines how to generate tokens for the watermarked LLM output based on extracted topics of an input prompt or the output of a non-watermarked LLM. Inspired from previous work, we propose using a pair of lists (that are generated based on the specified extracted topic(s)) that specify certain tokens to be included or excluded while generating the watermarked output of the LLM. Using the proposed watermarking algorithm, we show the practicality of a watermark detection algorithm. Furthermore, we discuss a wide range of attacks that can emerge against watermarking algorithms for LLMs and the benefit of the proposed watermarking scheme for the feasibility of modeling a potential attacker considering its benefit vs. loss.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# 自動走行システムの効率的なテストのためのシナリオの戦術的挑戦の決定

Determining the Tactical Challenge of Scenarios to Efficiently Test Automated Driving Systems ( http://arxiv.org/abs/2404.02599v2 )

ライセンス: Link先を確認
Lennart Vater, Sven Tarlowski, Michael Schuldes, Lutz Eckstein, (参考訳) 自動走行システム(ADS)のシナリオベーステストと安全性検証に関するテストシナリオの選択は依然として困難である。 シナリオの関連性の重要な側面は、ADSにとっての課題である。 シナリオの課題を計算するための既存の方法は、メートル法値の観点で課題を表現することを目的としている。 メトリック値は、最小または最も困難なシナリオを選択するのに有用である。 しかし、関連するテストシナリオの効率的な選択のための重要な情報である、課題の原因に関する人間解釈可能な情報の提供には失敗している。 そこで本稿では,シナリオを分析し,必要車線変更の最小化と難易度の観点からそれらの課題を説明することによって,この問題を緩和する課題記述法を提案する。 異なるハイウェイシナリオにメソッドを適用することで、複雑なシナリオを分析し、関連するテストシナリオを選択するために使用可能な、理解しやすい説明を提供することができることを示した。

The selection of relevant test scenarios for the scenario-based testing and safety validation of automated driving systems (ADSs) remains challenging. An important aspect of the relevance of a scenario is the challenge it poses for an ADS. Existing methods for calculating the challenge of a scenario aim to express the challenge in terms of a metric value. Metric values are useful to select the least or most challenging scenario. However, they fail to provide human-interpretable information on the cause of the challenge which is critical information for the efficient selection of relevant test scenarios. Therefore, this paper presents the Challenge Description Method that mitigates this issue by analyzing scenarios and providing a description of their challenge in terms of the minimum required lane changes and their difficulty. Applying the method to different highway scenarios showed that it is capable of analyzing complex scenarios and providing easy-to-understand descriptions that can be used to select relevant test scenarios.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# HOEG: オブジェクト中心予測プロセスモニタリングの新しいアプローチ

HOEG: A New Approach for Object-Centric Predictive Process Monitoring ( http://arxiv.org/abs/2404.05316v2 )

ライセンス: Link先を確認
Tim K. Smit, Hajo A. Reijers, Xixi Lu, (参考訳) 予測プロセスモニタリングは、残りの時間を予測するなど、進行中のプロセス実行の将来の状態を予測することに焦点を当てる。 オブジェクト中心のプロセスマイニングの最近の進歩は、オブジェクトとイベントデータと、イベント間の明示的な関係を豊かにしている。 このリッチなデータを活用するために、さまざまなノードタイプを持つグラフ構造にイベントとオブジェクトを統合する、異種オブジェクトイベントグラフ符号化(HOEG)を提案する。 オブジェクトの機能を集約することなく、よりニュアンスで情報に富んだ表現を生成する。 そして、予測タスクにこれらの多様なオブジェクト特徴を組み込んだ異種グラフニューラルネットワークアーキテクチャを採用する。 我々は,HOEGの性能と拡張性を評価し,既存の2つのグラフベースエンコーディングと2つのベースラインモデルに対してベンチマークを行った。 本評価では,オランダの大手金融機関における実生活プロセスを含む3つのイベントログ(OCEL)を用いて評価を行った。 その結果、HOEGは既存のモデルとよく競合し、OCELが情報的オブジェクト属性やイベントオブジェクトの相互作用を含む場合、それらを上回ることが示唆された。

Predictive Process Monitoring focuses on predicting future states of ongoing process executions, such as forecasting the remaining time. Recent developments in Object-Centric Process Mining have enriched event data with objects and their explicit relations between events. To leverage this enriched data, we propose the Heterogeneous Object Event Graph encoding (HOEG), which integrates events and objects into a graph structure with diverse node types. It does so without aggregating object features, thus creating a more nuanced and informative representation. We then adopt a heterogeneous Graph Neural Network architecture, which incorporates these diverse object features in prediction tasks. We evaluate the performance and scalability of HOEG in predicting remaining time, benchmarking it against two established graph-based encodings and two baseline models. Our evaluation uses three Object-Centric Event Logs (OCELs), including one from a real-life process at a major Dutch financial institution. The results indicate that HOEG competes well with existing models and surpasses them when OCELs contain informative object attributes and event-object interactions.
翻訳日:2024-04-17 22:17:00 公開日:2024-04-16
# ピアオーディタとしての若者: 機械学習応用のアルゴリズム監査によるティーンエイジャーの育成

Youth as Peer Auditors: Engaging Teenagers with Algorithm Auditing of Machine Learning Applications ( http://arxiv.org/abs/2404.05874v3 )

ライセンス: Link先を確認
Luis Morales-Navarro, Yasmin B. Kafai, Vedya Konda, Danaë Metaxa, (参考訳) 人工知能/機械学習(AI/ML)アプリケーションが若者の生活においてより広く普及するにつれて、それらが相互作用し、設計し、アプリケーションを評価するのをサポートすることが不可欠である。 本稿では,アルゴリズムシステムの不透明な内部動作と外的影響をよりよく理解するために,ピアのMLを活用したアプリケーションの監査役として青少年を位置づける。 2週間のワークショップで、13人の若者(14~15歳)がMLベースのアプリケーションを設計し、監査した。 若年者に対して監査課題を提示する前・後臨床面接の分析を行った。 この分析は、ワークショップの後、若者全員がアルゴリズムバイアスと推論されたデータセットとモデル設計の問題を特定したことを示している。 Youth氏はアルゴリズム上の正義問題やMLモデルの改善についても論じている。 さらに、若者は、監査がモデル機能とアイデアを自身のモデルを改善するための新しい視点を提供することを反映した。 本研究は,(1)若年者に対するアルゴリズム監査の概念化,(2)監査の潜在的メリットの実証的証拠である。 本稿では,学習と児童とコンピュータのインタラクション研究におけるアルゴリズム監査の可能性について論じる。

As artificial intelligence/machine learning (AI/ML) applications become more pervasive in youth lives, supporting them to interact, design, and evaluate applications is crucial. This paper positions youth as auditors of their peers' ML-powered applications to better understand algorithmic systems' opaque inner workings and external impacts. In a two-week workshop, 13 youth (ages 14-15) designed and audited ML-powered applications. We analyzed pre/post clinical interviews in which youth were presented with auditing tasks. The analyses show that after the workshop all youth identified algorithmic biases and inferred dataset and model design issues. Youth also discussed algorithmic justice issues and ML model improvements. Furthermore, youth reflected that auditing provided them new perspectives on model functionality and ideas to improve their own models. This work contributes (1) a conceptualization of algorithm auditing for youth; and (2) empirical evidence of the potential benefits of auditing. We discuss potential uses of algorithm auditing in learning and child-computer interaction research.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-16
# UAVローカライゼーションのためのエッジ検出とニューラルネットワークの活用

Leveraging edge detection and neural networks for better UAV localization ( http://arxiv.org/abs/2404.06207v2 )

ライセンス: Link先を確認
Theo Di Piazza, Enric Meinhardt-Llopis, Gabriele Facciolo, Benedicte Bascle, Corentin Abgrall, Jean-Clement Devaux, (参考訳) グローバルナビゲーション衛星システム(GNSS)を欠いた環境下で無人航空機(UAV)をジオローカライズするための新しい手法を提案する。 現在の最先端技術では、オフラインで訓練されたエンコーダを使用して、UAVの現在のビューのベクトル表現(埋め込み)を生成し、それと、Geo-Referencedイメージの事前計算による埋め込みを比較して、UAVの位置を決定する。 そこで本研究では,画像の前処理によるエッジ抽出により,季節や照明の変動に対するロバスト性を示すことにより,これらの手法の性能を著しく向上できることを実証する。 さらに,エッジの利用により,方向と高度の不正確さに対するレジリエンスが向上することが確認された。 さらに,ローカライゼーションのための信頼性基準を導入する。 我々の発見は合成実験によって裏付けられている。

We propose a novel method for geolocalizing Unmanned Aerial Vehicles (UAVs) in environments lacking Global Navigation Satellite Systems (GNSS). Current state-of-the-art techniques employ an offline-trained encoder to generate a vector representation (embedding) of the UAV's current view, which is then compared with pre-computed embeddings of geo-referenced images to determine the UAV's position. Here, we demonstrate that the performance of these methods can be significantly enhanced by preprocessing the images to extract their edges, which exhibit robustness to seasonal and illumination variations. Furthermore, we establish that utilizing edges enhances resilience to orientation and altitude inaccuracies. Additionally, we introduce a confidence criterion for localization. Our findings are substantiated through synthetic experiments.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-16
# 非線形フィードフォワードによる非ガウス状態テレポーテーション

Non-Gaussian state teleportation with a nonlinear feedforward ( http://arxiv.org/abs/2404.06438v2 )

ライセンス: Link先を確認
Vojtěch Kala, Mattia Walschaers, Radim Filip, Petr Marek, (参考訳) 連続変数クラスタ状態による測定誘起量子計算は、非ガウス測度とフィードフォワード制御を伴うクラスタを通して状態を伝播するテレポーテーションを利用する。 量子非ガウス状態のそのような伝播を、小さなクラスター状態を通して非線形にスクイーズすることで解析し、非線形フィードフォワードがテレポーテーションプロトコルに関与している場合、高い非線形スキューズが転送可能であることを示す。 確率論的体制では、現在の実験資源でも改善が示される。 非ガウス状態のより良い処理は、量子コンピューティングで必要とされるクラスター状態と非ガウス性の間の必要な相互作用に近づくことができる。

Measurement-induced quantum computation with continuous-variable cluster states utilizes teleportation propagating the states through the cluster accompanied by non-Gaussian measurements and feedforward control. We analyze such propagation of a quantum non-Gaussian state with nonlinear squeezing through a small cluster state and show that when a nonlinear feedforward is involved in the teleportation protocol, higher nonlinear squeezing can be transferred. In a probabilistic regime, the improvement can be manifested even with current experimental resources. Better processing of non-Gaussian states can bring us closer to the necessary interplay between cluster states and non-Gaussianity required by quantum computing.
翻訳日:2024-04-17 22:07:08 公開日:2024-04-16
# 大規模言語モデルを用いたバイナリコード理解にどこまで関わったか

How Far Have We Gone in Stripped Binary Code Understanding Using Large Language Models ( http://arxiv.org/abs/2404.09836v2 )

ライセンス: Link先を確認
Xiuwei Shang, Shaoyin Cheng, Guoqiang Chen, Yanming Zhang, Li Hu, Xiao Yu, Gangyang Li, Weiming Zhang, Nenghai Yu, (参考訳) バイナリコード分析は、ソフトウェアのメンテナンス、マルウェア検出、ソフトウェアの脆弱性発見、パッチ解析など、さまざまなソフトウェアセキュリティアプリケーションにおいて重要な役割を果たす。 しかし、ソースコードとは異なり、セマンティック情報がないため、リバースエンジニアにとってバイナリコードの理解は困難である。 そのため、人間のプレイヤーがバイナリコードを解釈するのを助ける自動化ツールが必要である。 1) 深層学習に基づく技術はバイナリコード理解に関連するタスクにおいて競合する結果を実証し、さらに(2) 大規模言語モデル(LLM)は、コード理解や生成といったタスクのソースコードレベルで広範囲に事前訓練されている。 これにより、参加者はバイナリコード理解におけるLLMの能力について疑問を抱くことになる。 本研究では,実世界のリバースエンジニアリングシナリオにおけるLLMの有効性を評価するためのベンチマークを提案する。 このベンチマークでは、関数名のリカバリとバイナリコードの要約という、2つの重要なバイナリコード理解タスクがカバーされている。 我々は,このベンチマークを用いて,LLMを広範囲に評価することにより,それらの能力と限界に関する貴重な知見を得る。 評価の結果、既存のLLMはバイナリコードをある程度理解でき、それによってバイナリコード解析の効率が向上することが明らかとなった。 我々の結果は、バイナリコード理解の分野を前進させるLLMの大きな可能性を浮き彫りにしている。

Binary code analysis plays a pivotal role in various software security applications, such as software maintenance, malware detection, software vulnerability discovery, patch analysis, etc. However, unlike source code, understanding binary code is challenging for reverse engineers due to the absence of semantic information. Therefore, automated tools are needed to assist human players in interpreting binary code. In recent years, two groups of technologies have shown promising prospects: (1) Deep learning-based technologies have demonstrated competitive results in tasks related to binary code understanding, furthermore, (2) Large Language Models (LLMs) have been extensively pre-trained at the source-code level for tasks such as code understanding and generation. This makes participants wonder about the ability of LLMs in binary code understanding. In this work, we propose a benchmark to evaluate the effectiveness of LLMs in real-world reverse engineering scenarios. The benchmark covers two key binary code understanding tasks, including function name recovery and binary code summarization. We gain valuable insights into their capabilities and limitations through extensive evaluations of popular LLMs using our benchmark. Our evaluations reveal that existing LLMs can understand binary code to a certain extent, thereby improving the efficiency of binary code analysis. Our results highlight the great potential of the LLMs in advancing the field of binary code understanding.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-16
# 産業規模多言語ASRの解剖

Anatomy of Industrial Scale Multilingual ASR ( http://arxiv.org/abs/2404.09841v2 )

ライセンス: Link先を確認
Francis McCann Ramirez, Luka Chkhetiani, Andrew Ehrenberg, Robert McHardy, Rami Botros, Yash Khare, Andrea Vanzo, Taufiquzzaman Peyash, Gabriel Oexle, Michael Liang, Ilya Sklyar, Enver Fakhan, Ahmed Etefy, Daniel McCrystal, Sam Flamini, Domenic Donato, Takuya Yoshioka, (参考訳) 本稿では,産業用自動音声認識(ASR)システムについて述べる。 本システムは、教師なし(12.5M時間)、教師なし(188K時間)、擬似ラベル付き(1.6M時間)の4言語からなる多様なトレーニングデータセットを活用する。 我々は,BEST-RQで事前訓練したフルコンテキスト600Mパラメータ・コンバータ・エンコーダと,エンコーダとともに微調整されたRNN-Tデコーダとからなるモデルアーキテクチャについて詳細に記述する。 本稿では,Whisper large や Canary-1B などの大規模で計算コストの高いモデルに対して,競合語誤り率 (WER) を示す。 さらに、コードスイッチ機能の改善、最適化されたWhisperベースラインに対する5倍の推論高速化、音声データに対する幻覚率の30%の低減、Whisperに対する環境雑音の90%の低減、時間スタンプ精度の向上など、アーキテクチャ上の選択にはいくつかの大きなメリットがある。 本研究を通じて,システム中心のアプローチを用いて,本格的なASRモデルの様々な側面を解析し,大規模に運用されている現実世界のサービスに有用な実用的な知見を得る。

This paper describes AssemblyAI's industrial-scale automatic speech recognition (ASR) system, designed to meet the requirements of large-scale, multilingual ASR serving various application needs. Our system leverages a diverse training dataset comprising unsupervised (12.5M hours), supervised (188k hours), and pseudo-labeled (1.6M hours) data across four languages. We provide a detailed description of our model architecture, consisting of a full-context 600M-parameter Conformer encoder pre-trained with BEST-RQ and an RNN-T decoder fine-tuned jointly with the encoder. Our extensive evaluation demonstrates competitive word error rates (WERs) against larger and more computationally expensive models, such as Whisper large and Canary-1B. Furthermore, our architectural choices yield several key advantages, including an improved code-switching capability, a 5x inference speedup compared to an optimized Whisper baseline, a 30% reduction in hallucination rate on speech data, and a 90% reduction in ambient noise compared to Whisper, along with significantly improved time-stamp accuracy. Throughout this work, we adopt a system-centric approach to analyzing various aspects of fully-fledged ASR models to gain practically relevant insights useful for real-world services operating at scale.
翻訳日:2024-04-17 21:57:24 公開日:2024-04-16
# 大規模言語モデルにおけるGlitch Tokens:分類分類と効果的な検出

Glitch Tokens in Large Language Models: Categorization Taxonomy and Effective Detection ( http://arxiv.org/abs/2404.09894v2 )

ライセンス: Link先を確認
Yuxi Li, Yi Liu, Gelei Deng, Ying Zhang, Wenjia Song, Ling Shi, Kailong Wang, Yuekang Li, Yang Liu, Haoyu Wang, (参考訳) 様々な領域におけるLarge Language Models (LLMs) の適用が拡大するにつれ、その予期せぬ振る舞いやそれに伴う成果を包括的に調査することが義務づけられる。 本研究では,確立されたトークン化器が生成する異常トークンである"グリッチトークン"の現象を紹介し,系統的に検討し,モデルの品質を損なう可能性がある。 具体的には、3つの異なるトークン化剤を使用し、合計182,517個のトークンを含む7つの人気のあるLSMを実験する。 本報告では, グリッチトークンと相互作用する際, LLMが示すグリッチトークンと症状の分類について述べる。 我々は,グリッチトークンが埋め込み空間に集束する傾向にあるという観察に基づいて,効率的なグリッチトークン検出のための新しい反復的クラスタリング手法であるGlitchHunterを提案する。 評価の結果,提案手法は8つのオープンソース LLM 上で3つのベースライン法より優れていることがわかった。 我々の知る限り、グリッチトークンに関する最初の総合的研究を提示する。 我々の新しい検出は、LLMにおけるトークン化関連エラーの軽減に関する貴重な洞察を提供する。

With the expanding application of Large Language Models (LLMs) in various domains, it becomes imperative to comprehensively investigate their unforeseen behaviors and consequent outcomes. In this study, we introduce and systematically explore the phenomenon of "glitch tokens", which are anomalous tokens produced by established tokenizers and could potentially compromise the models' quality of response. Specifically, we experiment on seven top popular LLMs utilizing three distinct tokenizers and involving a totally of 182,517 tokens. We present categorizations of the identified glitch tokens and symptoms exhibited by LLMs when interacting with glitch tokens. Based on our observation that glitch tokens tend to cluster in the embedding space, we propose GlitchHunter, a novel iterative clustering-based technique, for efficient glitch token detection. The evaluation shows that our approach notably outperforms three baseline methods on eight open-source LLMs. To the best of our knowledge, we present the first comprehensive study on glitch tokens. Our new detection further provides valuable insights into mitigating tokenization-related errors in LLMs.
翻訳日:2024-04-17 21:47:37 公開日:2024-04-16
# Tango 2: 直接参照最適化による拡散に基づくテキスト・ツー・オーディオ生成の調整

Tango 2: Aligning Diffusion-based Text-to-Audio Generations through Direct Preference Optimization ( http://arxiv.org/abs/2404.09956v2 )

ライセンス: Link先を確認
Navonil Majumder, Chia-Yu Hung, Deepanway Ghosal, Wei-Ning Hsu, Rada Mihalcea, Soujanya Poria, (参考訳) 生成的マルチモーダルコンテンツは、アーティストやメディアのスタッフが、アイデアを迅速に生かして、制作前のモックアップを作成できる可能性があるため、コンテンツ制作の領域の多くでますます普及している。 テキストプロンプトからの音声の生成は、音楽や映画産業におけるそのようなプロセスの重要な側面である。 最近の拡散に基づくテキスト・ツー・オーディオモデルの多くは、プロンプト・オーディオペアの大規模なデータセットに基づいて、ますます洗練された拡散モデルのトレーニングに重点を置いている。 これらのモデルは、入力プロンプトに関して、概念やイベントの存在と、出力オーディオにおける時間的順序に明示的に焦点を絞らない。 我々の仮説は、これらのオーディオ生成の側面が、限られたデータの存在下でのオーディオ生成性能をどのように改善するかに焦点を当てている。 そこで本研究では,既存のテキスト音声モデルであるTangoを用いて,各プロンプトが勝者音声出力と敗者音声出力を有して学習する選好データセットを合成する。 敗者出力は、理論上、即時欠落または誤った順序からいくつかの概念を持つ。 そこで我々は,TangoとAudioLDM2における拡散DPOの損失を利用して,公開されているTangoテキスト音声モデルを微調整し,自動評価と手動評価の両方の観点から,TangoとAudioLDM2による音声出力の改善につながることを示す。

Generative multimodal content is increasingly prevalent in much of the content creation arena, as it has the potential to allow artists and media personnel to create pre-production mockups by quickly bringing their ideas to life. The generation of audio from text prompts is an important aspect of such processes in the music and film industry. Many of the recent diffusion-based text-to-audio models focus on training increasingly sophisticated diffusion models on a large set of datasets of prompt-audio pairs. These models do not explicitly focus on the presence of concepts or events and their temporal ordering in the output audio with respect to the input prompt. Our hypothesis is focusing on how these aspects of audio generation could improve audio generation performance in the presence of limited data. As such, in this work, using an existing text-to-audio model Tango, we synthetically create a preference dataset where each prompt has a winner audio output and some loser audio outputs for the diffusion model to learn from. The loser outputs, in theory, have some concepts from the prompt missing or in an incorrect order. We fine-tune the publicly available Tango text-to-audio model using diffusion-DPO (direct preference optimization) loss on our preference dataset and show that it leads to improved audio output over Tango and AudioLDM2, in terms of both automatic- and manual-evaluation metrics.
翻訳日:2024-04-17 21:27:57 公開日:2024-04-16
# 一貫性と不確実性:選択的視覚質問応答のためのブラックボックス視覚言語モデルからの信頼できない応答の同定

Consistency and Uncertainty: Identifying Unreliable Responses From Black-Box Vision-Language Models for Selective Visual Question Answering ( http://arxiv.org/abs/2404.10193v1 )

ライセンス: Link先を確認
Zaid Khan, Yun Fu, (参考訳) 選択予測の目標は、安全クリティカルな文脈において重要な信頼性のある予測を配信できない場合、モデルを停止させることである。 選択予測への既存のアプローチは、通常、モデルの内部へのアクセスを必要とし、モデルを再訓練したり、単調なモデルのみを研究する必要がある。 しかしながら、最も強力なモデル(eg GPT-4)は、通常、アクセス不能な内部を持つブラックボックスとしてのみ利用可能であり、エンドユーザによって再トレーニングされず、マルチモーダルタスクに頻繁に使用される。 本研究では,現実的なブラックボックス環境下での視覚言語モデルの選択的予測の可能性について検討する。 そこで我々は,ブラックボックスの視覚言語モデルから信頼できない応答を識別し,課題に答えるために,‘textit{neighborhood consistency} の原理を用いて提案する。 視覚的質問とモデル応答のみが与えられた場合、視覚的質問の近傍でのモデルの応答の整合性は信頼性を示すと仮定する。 ブラックボックスの設定で隣人を特徴空間で直接サンプリングすることは不可能である。 代わりに、より小さなプロキシモデルを使用して、近隣からのサンプルを概ね作成できることが示される。 プロキシモデルに非分布な逆の設定や設定であっても、視覚的質問に対するモデル応答の特定には、近傍の一貫性が有効であることがわかった。

The goal of selective prediction is to allow an a model to abstain when it may not be able to deliver a reliable prediction, which is important in safety-critical contexts. Existing approaches to selective prediction typically require access to the internals of a model, require retraining a model or study only unimodal models. However, the most powerful models (e.g. GPT-4) are typically only available as black boxes with inaccessible internals, are not retrainable by end-users, and are frequently used for multimodal tasks. We study the possibility of selective prediction for vision-language models in a realistic, black-box setting. We propose using the principle of \textit{neighborhood consistency} to identify unreliable responses from a black-box vision-language model in question answering tasks. We hypothesize that given only a visual question and model response, the consistency of the model's responses over the neighborhood of a visual question will indicate reliability. It is impossible to directly sample neighbors in feature space in a black-box setting. Instead, we show that it is possible to use a smaller proxy model to approximately sample from the neighborhood. We find that neighborhood consistency can be used to identify model responses to visual questions that are likely unreliable, even in adversarial settings or settings that are out-of-distribution to the proxy model.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# コンピュータサイエンス学生におけるインポスタシンドローム : 視線追跡と生体計測による研究

Impostor Syndrome in Final Year Computer Science Students: An Eye Tracking and Biometrics Study ( http://arxiv.org/abs/2404.10194v1 )

ライセンス: Link先を確認
Alyssia Chen, Carol Wong, Katy Tarrit, Anthony Peruma, (参考訳) インポスタシンドローム(英: Imposter syndrome)は、必要な能力を持っているにもかかわらず、自分のスキルや能力を疑う個人に影響を与える心理学的現象である。 これは信頼性の欠如とパフォーマンスの低下につながる可能性がある。 インポスタシンドロームが様々な分野の学生や専門家に与える影響を調査してきたが、ソフトウェア工学におけるコードの理解にどのように影響するかについては、知識が限られている。 本研究では,大学院コンピュータサイエンスの学生におけるインポスタシンドロームの有病率と,アイトラッカーと心拍モニターを用いたコード理解認知への影響について検討した。 鍵となる知見は, 男性として同定された学生は, コード解析において, インポスタシンドロームのレベルが低く, 高いインポスタシンドロームはコードスニペットのレビュー時間の増加と関連し, 正しく解決する可能性が低いことである。 本研究は、このトピックに関する最初のデータを提供し、学生の学業成功を支援し、開発者の生産性と精神福祉を改善するためのさらなる研究の基盤を確立する。

Imposter syndrome is a psychological phenomenon that affects individuals who doubt their skills and abilities, despite possessing the necessary competencies. This can lead to a lack of confidence and poor performance. While research has explored the impacts of imposter syndrome on students and professionals in various fields, there is limited knowledge on how it affects code comprehension in software engineering. In this exploratory study, we investigate the prevalence of imposter syndrome among final-year undergraduate computer science students and its effects on their code comprehension cognition using an eye tracker and heart rate monitor. Key findings demonstrate that students identifying as male exhibit lower imposter syndrome levels when analyzing code, and higher imposter syndrome is associated with increased time reviewing a code snippet and a lower likelihood of solving it correctly. This study provides initial data on this topic and establishes a foundation for further research to support student academic success and improve developer productivity and mental well-being.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# 駆動散逸量子系における強マルコフ散逸

Strong Markov dissipation in driven-dissipative quantum systems ( http://arxiv.org/abs/2404.10195v1 )

ライセンス: Link先を確認
Takashi Mori, (参考訳) 散逸の下でマルコフ量子力学を記述するリンドブラッド方程式は、通常は弱い系-基底結合の仮定の下で導かれる。 強いシステムバス結合は、しばしば非マルコフ進化をもたらす。 特異結合極限は例外として知られ、任意の消散の強さを持つリンドブラッド方程式を生成する。 しかし、特異カップリング限界は入浴の高温限界を必要とするため、システムは自明な無限温度状態となり、量子制御の文脈では望ましくない。 本研究では、特異結合限界と高速周期運転を組み合わせた新しいスケーリング極限を考察することにより、システムバス結合の任意の強度に対するマルコフ・リンドブラッド方程式を導出できることが示されている。 標準特異結合極限とは対照的に、散逸と周期駆動の相互作用は非自明な定常状態をもたらす。

The Lindblad equation, which describes Markovian quantum dynamics under dissipation, is usually derived under the weak system-bath coupling assumption. Strong system-bath coupling often leads to non-Markov evolution. The singular-coupling limit is known as an exception: it yields a Lindblad equation with an arbitrary strength of dissipation. However, the singular-coupling limit requires high-temperature limit of the bath, and hence the system ends up in a trivial infinite-temperature state, which is not desirable in the context of quantum control. In this work, it is shown that we can derive a Markovian Lindblad equation for an arbitrary strength of the system-bath coupling by considering a new scaling limit that is called the singular-driving limit, which combines the singular-coupling limit and fast periodic driving. In contrast to the standard singular-coupling limit, an interplay between dissipation and periodic driving results in a nontrivial steady state.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# RAGモデルはどれほど忠実か? : RAGとLLMの内部的事前の綱引きの定量化

How faithful are RAG models? Quantifying the tug-of-war between RAG and LLMs' internal prior ( http://arxiv.org/abs/2404.10198v1 )

ライセンス: Link先を確認
Kevin Wu, Eric Wu, James Zou, (参考訳) 検索拡張生成(RAG)は、幻覚の修正や、大規模言語モデル(LLM)の最新の知識の提供にしばしば使用される。 しかし、LLM単独で誤った質問に答える場合、正しい検索されたコンテンツを提供することは、常にエラーを修正しますか? 逆に、検索されたコンテンツが正しくない場合、LLMは間違った情報を無視することを知っていますか、あるいはエラーを再カプセル化するのでしょうか? これらの疑問に答えるために, LLMの内部知識(すなわち, 先行知識)と, 一致しない場合の検索情報との間の綱引きを系統的に解析する。 GPT-4 や他の LLM を,参照文書と非参照文書を用いて,データセット間の質問応答能力について検証した。 予想通り、正しい検索された情報を提供することで、ほとんどのモデルミス(94%の精度)が解決される。 しかし、基準文書が誤った値のレベルが増加すると、LCMは内部の事前が弱いが、先行が強い場合にはより抵抗性が高いときに、誤りで修正された情報を引用する傾向にある。 同様に、修正された情報がモデルの以前の情報から逸脱するほど、モデルがそれを好む可能性が低いこともわかりました。 これらの結果は、モデルの事前知識と参照文書に提示される情報との間の緊張関係を浮き彫りにする。

Retrieval augmented generation (RAG) is often used to fix hallucinations and provide up-to-date knowledge for large language models (LLMs). However, in cases when the LLM alone incorrectly answers a question, does providing the correct retrieved content always fix the error? Conversely, in cases where the retrieved content is incorrect, does the LLM know to ignore the wrong information, or does it recapitulate the error? To answer these questions, we systematically analyze the tug-of-war between a LLM's internal knowledge (i.e. its prior) and the retrieved information in settings when they disagree. We test GPT-4 and other LLMs on question-answering abilities across datasets with and without reference documents. As expected, providing the correct retrieved information fixes most model mistakes (94% accuracy). However, when the reference document is perturbed with increasing levels of wrong values, the LLM is more likely to recite the incorrect, modified information when its internal prior is weaker but is more resistant when its prior is stronger. Similarly, we also find that the more the modified information deviates from the model's prior, the less likely the model is to prefer it. These results highlight an underlying tension between a model's prior knowledge and the information presented in reference documents.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# CULTURE-GEN:自然言語による言語モデルにおけるグローバルカルチャー知覚の解明

CULTURE-GEN: Revealing Global Cultural Perception in Language Models through Natural Language Prompting ( http://arxiv.org/abs/2404.10199v1 )

ライセンス: Link先を確認
Huihan Li, Liwei Jiang, Nouha Dziri, Xiang Ren, Yejin Choi, (参考訳) 大規模言語モデル (LLMs) の利用が世界中で増加しているため, 多様なグローバル文化に対して適切な知識と公正な表現を持つことが重要である。 本研究は,文化条件付き世代を通して,110か国と8か国における3つのSOTAモデルの文化認識を明らかにし,それぞれの文化に関連するシンボルをLLMによって抽出する。 文化条件付き世代は、デフォルトの文化と区別される余分な文化を区別する言語的な「マーカー」から成り立っていることが判明した。 また, LLMは文化シンボルに不均一な多様性を持ち, 異なる地理的領域の文化は, LLMの文化に依存しない世代に異なる存在であることがわかった。 本研究は,LLMにおけるグローバルカルチャー認識の知識と公正性について,さらなる研究を促進するものである。 コードとデータは、https://github.com/huihanlhh/Culture-Gen/で参照できる。

As the utilization of large language models (LLMs) has proliferated worldwide, it is crucial for them to have adequate knowledge and fair representation for diverse global cultures. In this work, we uncover culture perceptions of three SOTA models on 110 countries and regions on 8 culture-related topics through culture-conditioned generations, and extract symbols from these generations that are associated to each culture by the LLM. We discover that culture-conditioned generation consist of linguistic "markers" that distinguish marginalized cultures apart from default cultures. We also discover that LLMs have an uneven degree of diversity in the culture symbols, and that cultures from different geographic regions have different presence in LLMs' culture-agnostic generation. Our findings promote further research in studying the knowledge and fairness of global culture perception in LLMs. Code and Data can be found in: https://github.com/huihanlhh/Culture-Gen/
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# TEL'M:言語モデルの試験と評価

TEL'M: Test and Evaluation of Language Models ( http://arxiv.org/abs/2404.10200v1 )

ライセンス: Link先を確認
George Cybenko, Joshua Ackerman, Paul Lintilhac, (参考訳) 言語モデルは、いくつかのタスクで顕著な能力を示しながら、他のタスクで劇的に失敗しています。 この状況は、様々な言語モデル(LM)の機能の理解と比較にかなりの関心を惹きつけてきたが、これらの取り組みは、しばしば逸話にすぎない結果に大差ないものだった。 これは、医療、レーダー信号処理、その他の防衛分野で使用されるテストや評価プロセスとは対照的である。 本稿では,言語モデル(TEL'M)のテストと評価を,高価値な商業・政府・国家安全アプリケーションに焦点をあてた,現在および将来のLMの価値を評価するための原則的アプローチとして記述する。 この手法は他の人工知能(AI)技術にも応用できると考えている。

Language Models have demonstrated remarkable capabilities on some tasks while failing dramatically on others. The situation has generated considerable interest in understanding and comparing the capabilities of various Language Models (LMs) but those efforts have been largely ad hoc with results that are often little more than anecdotal. This is in stark contrast with testing and evaluation processes used in healthcare, radar signal processing, and other defense areas. In this paper, we describe Test and Evaluation of Language Models (TEL'M) as a principled approach for assessing the value of current and future LMs focused on high-value commercial, government and national security applications. We believe that this methodology could be applied to other Artificial Intelligence (AI) technologies as part of the larger goal of "industrializing" AI.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# シャッフルモデルにおけるプライベートベクトル平均推定:多くのメッセージを必要とする最適なレート

Private Vector Mean Estimation in the Shuffle Model: Optimal Rates Require Many Messages ( http://arxiv.org/abs/2404.10201v1 )

ライセンス: Link先を確認
Hilal Asi, Vitaly Feldman, Jelani Nelson, Huy L. Nguyen, Samson Zhou, Kunal Talwar, (参考訳) プライバシのシャッフルモデルにおいて,プライバシのプライベートベクトル平均推定の問題は,それぞれが単位ベクトル$v^{(i)} \in\mathbb{R}^d$を持つ場合である。 我々は,$\tilde{\mathcal{O}}\left(\min(n\varepsilon^2,d)\right)$ message per users を用いて,最適なエラーを実現する新しいマルチメッセージプロトコルを提案する。 さらに、最適なエラーを達成するための(バイアスのない)プロトコルは、各ユーザーが$\Omega(\min(n\varepsilon^2,d)/\log(n))$メッセージを送信し、メッセージ複雑性の最適性を対数要素まで示す必要があることを示す。 さらに、シングルメッセージ設定について検討し、平均二乗誤差 $\mathcal{O}(dn^{d/(d+2)}\varepsilon^{-4/(d+2)})$ を達成するプロトコルを設計する。 さらに、任意のシングルメッセージプロトコルが平均2乗誤差$\Omega(dn^{d/(d+2)})$を発生させなければならないことを示し、このプロトコルが$\varepsilon = \Theta(1)$の標準設定で最適であることを示す。 最後に、悪意のあるユーザに対するロバスト性を調査し、悪意のあるユーザが単一のシャフラーで大きな付加的エラーを発生させることができることを示す。

We study the problem of private vector mean estimation in the shuffle model of privacy where $n$ users each have a unit vector $v^{(i)} \in\mathbb{R}^d$. We propose a new multi-message protocol that achieves the optimal error using $\tilde{\mathcal{O}}\left(\min(n\varepsilon^2,d)\right)$ messages per user. Moreover, we show that any (unbiased) protocol that achieves optimal error requires each user to send $\Omega(\min(n\varepsilon^2,d)/\log(n))$ messages, demonstrating the optimality of our message complexity up to logarithmic factors. Additionally, we study the single-message setting and design a protocol that achieves mean squared error $\mathcal{O}(dn^{d/(d+2)}\varepsilon^{-4/(d+2)})$. Moreover, we show that any single-message protocol must incur mean squared error $\Omega(dn^{d/(d+2)})$, showing that our protocol is optimal in the standard setting where $\varepsilon = \Theta(1)$. Finally, we study robustness to malicious users and show that malicious users can incur large additive error with a single shuffler.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# 周波数駆動型逆転事例の新展開に向けて

Towards a Novel Perspective on Adversarial Examples Driven by Frequency ( http://arxiv.org/abs/2404.10202v1 )

ライセンス: Link先を確認
Zhun Zhang, Yi Zeng, Qihe Liu, Shijie Zhou, (参考訳) 現実のシナリオにおける機械学習モデルのセキュアな適用には、敵の例に対する理解の促進が不可欠です。 逆例を解析するための一般的な方法は、周波数に基づくアプローチである。 しかし, 従来の研究では, 低周波・高周波情報を利用した攻撃は攻撃性能を向上し, 対向摂動と周波数成分の相違が明らかになっている。 本稿では,周波数領域内における対向摂動の特性を探索することにより,この関係を解明する。 本稿では,ウェーブレットパケット分解法を用いて,逆数例の詳細な周波数解析を行い,様々な周波数帯域にわたる統計的検査を行う。 興味深いことに,低周波帯の高周波成分に有意な逆行性摂動が存在することが示唆された。 この知見に基づいて、異なる周波数帯域を組み合わせたブラックボックス逆攻撃アルゴリズムを提案する。 複数のデータセットとモデルで実施された実験により、低周波帯域と低周波帯域の高周波成分を組み合わせることで、攻撃効率が著しく向上することが示された。 平均攻撃成功率は99\%に達し、単一の周波数セグメントを利用する攻撃を上回っている。 さらに、連続的な摂動と離散的な摂動の評価において、$L_2$ノルムの限界に対する解として正規化外乱可視指数を導入する。

Enhancing our understanding of adversarial examples is crucial for the secure application of machine learning models in real-world scenarios. A prevalent method for analyzing adversarial examples is through a frequency-based approach. However, existing research indicates that attacks designed to exploit low-frequency or high-frequency information can enhance attack performance, leading to an unclear relationship between adversarial perturbations and different frequency components. In this paper, we seek to demystify this relationship by exploring the characteristics of adversarial perturbations within the frequency domain. We employ wavelet packet decomposition for detailed frequency analysis of adversarial examples and conduct statistical examinations across various frequency bands. Intriguingly, our findings indicate that significant adversarial perturbations are present within the high-frequency components of low-frequency bands. Drawing on this insight, we propose a black-box adversarial attack algorithm based on combining different frequency bands. Experiments conducted on multiple datasets and models demonstrate that combining low-frequency bands and high-frequency components of low-frequency bands can significantly enhance attack efficiency. The average attack success rate reaches 99\%, surpassing attacks that utilize a single frequency segment. Additionally, we introduce the normalized disturbance visibility index as a solution to the limitations of $L_2$ norm in assessing continuous and discrete perturbations.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# 機械学習が社会に与える影響:現状と今後の展望

The Impact of Machine Learning on Society: An Analysis of Current Trends and Future Implications ( http://arxiv.org/abs/2404.10204v1 )

ライセンス: Link先を確認
Md Kamrul Hossain Siam, Manidipa Bhattacharjee, Shakik Mahmud, Md. Saem Sarkar, Md. Masud Rana, (参考訳) 機械学習(ML)は急速に発展する技術分野であり、様々な方法で社会に大きな影響を与える可能性がある。 しかし、仕事の移転やプライバシー問題など、MLが社会に悪影響を及ぼす可能性も懸念されている。 本研究は,MLが社会に与える影響を包括的に分析することを目的とした。 この調査には、MLの経済的影響、倫理的・プライバシー的影響、およびテクノロジーに対する大衆の認識に関するデータ収集のための、徹底的な文献レビュー、ケーススタディ、調査が含まれていた。 調査は、異なる地域から150人の回答者を対象に行われた。 その結果,MLが医療,金融,交通,製造業に与える影響について検討した。 この研究の結果、回答者の大多数はMLの概念に適度な習熟度を持ち、社会に利益をもたらす可能性があると信じ、社会はMLの開発と利用を優先すべきだと回答した。 これらの知見に基づき、MLの社会への影響に関するさらなる研究、MLに関する個人のプライバシーと権利を保護するための強力な規制と法律、ML意思決定プロセスにおける透明性と説明責任の向上、MLに関する公共教育と意識の向上が推奨された。

The Machine learning (ML) is a rapidly evolving field of technology that has the potential to greatly impact society in a variety of ways. However, there are also concerns about the potential negative effects of ML on society, such as job displacement and privacy issues. This research aimed to conduct a comprehensive analysis of the current and future impact of ML on society. The research included a thorough literature review, case studies, and surveys to gather data on the economic impact of ML, ethical and privacy implications, and public perceptions of the technology. The survey was conducted on 150 respondents from different areas. The case studies conducted were on the impact of ML on healthcare, finance, transportation, and manufacturing. The findings of this research revealed that the majority of respondents have a moderate level of familiarity with the concept of ML, believe that it has the potential to benefit society, and think that society should prioritize the development and use of ML. Based on these findings, it was recommended that more research is conducted on the impact of ML on society, stronger regulations and laws to protect the privacy and rights of individuals when it comes to ML should be developed, transparency and accountability in ML decision-making processes should be increased, and public education and awareness about ML should be enhanced.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# 卓上運動の提供に関する研究と実践

Research and Practice of Delivering Tabletop Exercises ( http://arxiv.org/abs/2404.10206v1 )

ライセンス: Link先を確認
Jan Vykopal, Pavel Čeleda, Valdemar Švábenský, Martin Hofbauer, Martin Horák, (参考訳) テーブルトップエクササイズは、事故の効率的な緩和と解決のために人員を訓練するために使用される。 これらは実際に、組織の準備を支援し、非効率なプロセスを強調するために適用されます。 テーブルトップエクササイズは職場で必要とされる能力を訓練するので、特にサイバーセキュリティカリキュラムの中で、イノベーションとして大学のコンピューティングコースに導入されている。 コンピュータ教育者がこの革新的な方法を採用するのを助けるために,卓上演習を扱う学術出版物を調査する。 140紙を同定,検討し,14紙を選別し,詳細な検討を行った。 その結果, 既存の研究は, 線形形式に従う演習と, 研修生の学習に関する情報を体系的に収集しない演習を主体的に扱うことが明らかとなった。 コンピュータ教育研究者は,卓上演習の文脈における指導と評価の新たなアプローチを探求し,この指導方法の影響を最大化することができる。 論文が比較的少ないため、将来の研究の可能性は非常に大きい。 我々のレビューは、研究者、ツール開発者、教育者に対して、この分野の方向性、トレンドの合成、さらなる研究への示唆を提供する。

Tabletop exercises are used to train personnel in the efficient mitigation and resolution of incidents. They are applied in practice to support the preparedness of organizations and to highlight inefficient processes. Since tabletop exercises train competencies required in the workplace, they have been introduced into computing courses at universities as an innovation, especially within cybersecurity curricula. To help computing educators adopt this innovative method, we survey academic publications that deal with tabletop exercises. From 140 papers we identified and examined, we selected 14 papers for a detailed review. The results show that the existing research deals predominantly with exercises that follow a linear format and exercises that do not systematically collect data about trainees' learning. Computing education researchers can investigate novel approaches to instruction and assessment in the context of tabletop exercises to maximize the impact of this teaching method. Due to the relatively low number of published papers, the potential for future research is immense. Our review provides researchers, tool developers, and educators with an orientation in the area, a synthesis of trends, and implications for further work.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# HELLINGER-UCB:推薦システムにおける確率的マルチアームバンディット問題とコールドスタート問題の新しいアルゴリズム

HELLINGER-UCB: A novel algorithm for stochastic multi-armed bandit problem and cold start problem in recommender system ( http://arxiv.org/abs/2404.10207v1 )

ライセンス: Link先を確認
Ruibo Yang, Jiazhou Wang, Andrew Mullhaupt, (参考訳) 本稿では,確率的マルチアームバンディット問題について検討する。 我々は,上信頼境界(UCB)アルゴリズムの新たな変種であるHellinger-UCBを提案する。 我々は、Hellinger-UCBが理論的な下界に達することを証明した。 また,Hellinger-UCBは統計的に確固たる解釈を持つことを示した。 We show that Hellinger-UCB is effective in finite time horizons with numerical experiment between Hellinger-UCB and othervariants of the UCB algorithm。 実世界の例として,金融アプリのコンテンツレコメンデータシステムにおけるコールドスタート問題を解決するために,Hellinger-UCBアルゴリズムを適用した。 合理的な仮定では、Hellinger-UCBアルゴリズムは便利なが重要な低レイテンシ機能を備えている。 オンライン実験では、Hellinger-UCBはクリックスルー率(CTR)が高いという意味でKL-UCBとUCB1の両方を上回っていることも示している。

In this paper, we study the stochastic multi-armed bandit problem, where the reward is driven by an unknown random variable. We propose a new variant of the Upper Confidence Bound (UCB) algorithm called Hellinger-UCB, which leverages the squared Hellinger distance to build the upper confidence bound. We prove that the Hellinger-UCB reaches the theoretical lower bound. We also show that the Hellinger-UCB has a solid statistical interpretation. We show that Hellinger-UCB is effective in finite time horizons with numerical experiments between Hellinger-UCB and other variants of the UCB algorithm. As a real-world example, we apply the Hellinger-UCB algorithm to solve the cold-start problem for a content recommender system of a financial app. With reasonable assumption, the Hellinger-UCB algorithm has a convenient but important lower latency feature. The online experiment also illustrates that the Hellinger-UCB outperforms both KL-UCB and UCB1 in the sense of a higher click-through rate (CTR).
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# 大規模言語モデルを用いた次世代データインタラクションシステムDB-GPTの実証

Demonstration of DB-GPT: Next Generation Data Interaction System Empowered by Large Language Models ( http://arxiv.org/abs/2404.10209v1 )

ライセンス: Link先を確認
Siqiao Xue, Danrui Qi, Caigao Jiang, Wenhui Shi, Fangyin Cheng, Keting Chen, Hongjun Yang, Zhiping Zhang, Jianshan He, Hongyang Zhang, Ganglin Wei, Wang Zhao, Fan Zhou, Hong Yi, Shaodong Liu, Hongjun Yang, Faqiang Chen, (参考訳) 大規模言語モデル(LLM)の最近のブレークスルーは、ソフトウェアの多くの領域を移行する位置にある。 データと対話する技術は、特にLLMと重要な絡み合いを持ち、効率的で直感的なデータインタラクションが最重要である。 本稿では,従来のデータインタラクションタスクにLLMを統合し,ユーザエクスペリエンスとアクセシビリティを向上させる,革新的で製品対応のPythonライブラリDB-GPTを提案する。 DB-GPTは、自然言語で記述されたデータインタラクションタスクを理解し、LLMによるコンテキスト認識応答を提供するように設計されており、初心者から専門家まで、ユーザにとって必須のツールである。 システム設計は、ローカル、分散、およびクラウド環境へのデプロイをサポートする。 LLMでText-to-SQLのような基本的なデータインタラクションタスクを扱うだけでなく、Multi-AgentsフレームワークやAエージェントワークフロー表現言語(AWEL)を通じて生成データ分析のような複雑なタスクを処理できる。 サービス指向マルチモデル管理フレームワーク(SMMF)は、データのプライバシとセキュリティを保証する。 さらに、DB-GPTは、ユーザがDB-GPTを製品環境に簡単に統合できるように設計された一連の製品対応機能を提供している。 DB-GPTのコードはGithub(https://github.com/eosphoros-ai/DB-GPT)で公開されている。

The recent breakthroughs in large language models (LLMs) are positioned to transition many areas of software. The technologies of interacting with data particularly have an important entanglement with LLMs as efficient and intuitive data interactions are paramount. In this paper, we present DB-GPT, a revolutionary and product-ready Python library that integrates LLMs into traditional data interaction tasks to enhance user experience and accessibility. DB-GPT is designed to understand data interaction tasks described by natural language and provide context-aware responses powered by LLMs, making it an indispensable tool for users ranging from novice to expert. Its system design supports deployment across local, distributed, and cloud environments. Beyond handling basic data interaction tasks like Text-to-SQL with LLMs, it can handle complex tasks like generative data analysis through a Multi-Agents framework and the Agentic Workflow Expression Language (AWEL). The Service-oriented Multi-model Management Framework (SMMF) ensures data privacy and security, enabling users to employ DB-GPT with private LLMs. Additionally, DB-GPT offers a series of product-ready features designed to enable users to integrate DB-GPT within their product environments easily. The code of DB-GPT is available at Github(https://github.com/eosphoros-ai/DB-GPT) which already has over 10.7k stars.
翻訳日:2024-04-17 18:31:57 公開日:2024-04-16
# MK-SGN:スケルトンに基づく行動認識のためのマルチモーダル融合と知識蒸留を用いたスパイキンググラフ畳み込みネットワーク

MK-SGN: A Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation for Skeleton-based Action Recognition ( http://arxiv.org/abs/2404.10210v1 )

ライセンス: Link先を確認
Naichuan Zheng, Hailun Xia, Zeyu Liang, (参考訳) 近年,マルチモーダルグラフ畳み込みネットワーク(GCN)を利用した骨格に基づく行動認識が,目覚ましい成果を上げている。 しかし、その深い構造と連続的な浮動小数点演算に依存するため、GCNベースの手法はエネルギー集約的である。 この問題に対処するために,MK-SGN (Multimodal Fusion and Knowledge Distillation) を用いたSpyking Graph Convolutional Networkを提案する。 提案手法は、スパイキングニューラルネットワーク(SNN)のエネルギー効率とGCNのグラフ表現能力とを融合することにより、認識精度を維持しながらエネルギー消費量を削減する。 まず、GCNをスパイキンググラフ畳み込みネットワーク(SGN)に変換し、骨格に基づく行動認識のための基礎となるベースSGNを構築し、新しいベンチマークを確立し、今後の研究への道を開く。 第2に,マルチモーダルデータの処理をより効率的に行うために相互情報を活用するスパイキング・マルチモーダル・フュージョン・モジュール(SMF)を提案する。 さらに,空間的グローバル・スパイキング・アテンション機構(SA-SGC)を備えた空間グラフ・コンボリューション・モジュールを設計し,特徴学習能力を向上させる。 さらに, マルチモーダルGCNからSGNへの知識蒸留手法を探求し, 中間層蒸留と軟質ラベル蒸留を併用してSGNの性能を向上させる新しい統合手法を提案する。 骨格に基づく行動認識のための2つの挑戦的なデータセットにおいて、MK-SGNは計算負荷とエネルギー消費を減らすための最先端のGCNライクなフレームワークより優れている。 対照的に、典型的なGCN法は1アクションサンプルあたり35mJ以上を消費するのに対し、MK-SGNは98%以上を消費する。

In recent years, skeleton-based action recognition, leveraging multimodal Graph Convolutional Networks (GCN), has achieved remarkable results. However, due to their deep structure and reliance on continuous floating-point operations, GCN-based methods are energy-intensive. To address this issue, we propose an innovative Spiking Graph Convolutional Network with Multimodal Fusion and Knowledge Distillation (MK-SGN). By merging the energy efficiency of Spiking Neural Network (SNN) with the graph representation capability of GCN, the proposed MK-SGN reduces energy consumption while maintaining recognition accuracy. Firstly, we convert GCN into Spiking Graph Convolutional Network (SGN) and construct a foundational Base-SGN for skeleton-based action recognition, establishing a new benchmark and paving the way for future research exploration. Secondly, we further propose a Spiking Multimodal Fusion module (SMF), leveraging mutual information to process multimodal data more efficiently. Additionally, we introduce a spiking attention mechanism and design a Spatio Graph Convolution module with a Spatial Global Spiking Attention mechanism (SA-SGC), enhancing feature learning capability. Furthermore, we delve into knowledge distillation methods from multimodal GCN to SGN and propose a novel, integrated method that simultaneously focuses on both intermediate layer distillation and soft label distillation to improve the performance of SGN. On two challenging datasets for skeleton-based action recognition, MK-SGN outperforms the state-of-the-art GCN-like frameworks in reducing computational load and energy consumption. In contrast, typical GCN methods typically consume more than 35mJ per action sample, while MK-SGN reduces energy consumption by more than 98%.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# 変圧器オートエンコーダを用いた業務プロセスの異常補正

Anomaly Correction of Business Processes Using Transformer Autoencoder ( http://arxiv.org/abs/2404.10211v1 )

ライセンス: Link先を確認
Ziyou Gong, Xianwen Fang, Ping Wu, (参考訳) イベントログはビジネスプロセスの実行中に発生するすべてのイベントを記録します。 以前の作業には、主に次のイベント予測ベースのメソッドとオートエンコーダベースのメソッドが含まれていた。 これらの手法は、異常と異常を同時に正確にかつ効率的に検出することができず、これらは全て異常を検出するために設定された閾値に依存している。 これらの問題を解決するために,トランスフォーマーオートエンコーダに基づく業務プロセス異常訂正手法を提案する。 自己アテンション機構とオートエンコーダ構造を使用することで、任意の長さのイベントシーケンスを効率的に処理することができ、修正されたビジネスプロセスインスタンスを直接出力することで、さまざまなシナリオに適応することができる。 同時に、異常検出は自己教師付き学習によって分類問題に変換されるので、異常検出において特定のしきい値を設定する必要がない。 いくつかの実生活イベントログの実験結果から,提案手法は異常検出精度および異常訂正結果の点で従来の手法よりも優れ,高い実行効率を確保した。

Event log records all events that occur during the execution of business processes, so detecting and correcting anomalies in event log can provide reliable guarantee for subsequent process analysis. The previous works mainly include next event prediction based methods and autoencoder-based methods. These methods cannot accurately and efficiently detect anomalies and correct anomalies at the same time, and they all rely on the set threshold to detect anomalies. To solve these problems, we propose a business process anomaly correction method based on Transformer autoencoder. By using self-attention mechanism and autoencoder structure, it can efficiently process event sequences of arbitrary length, and can directly output corrected business process instances, so that it can adapt to various scenarios. At the same time, the anomaly detection is transformed into a classification problem by means of selfsupervised learning, so that there is no need to set a specific threshold in anomaly detection. The experimental results on several real-life event logs show that the proposed method is superior to the previous methods in terms of anomaly detection accuracy and anomaly correction results while ensuring high running efficiency.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# LWIRPOSE:新しいLWIR熱画像データセットとベンチマーク

LWIRPOSE: A novel LWIR Thermal Image Dataset and Benchmark ( http://arxiv.org/abs/2404.10212v1 )

ライセンス: Link先を確認
Avinash Upadhyay, Bhipanshu Dhupar, Manoj Sharma, Ankit Shukla, Ajith Abraham, (参考訳) 人間のポーズ推定は、照明の変化、閉塞、散らかった環境などの要因により、現実世界のアプリケーションではハードルに直面します。 本稿では,RGB-Thermal Nearly Paired and Annotated 2D Pose Datasetを提案する。 それぞれの画像には2Dの人間のポーズが刻まれており、研究者や実践者にとって貴重なリソースとなっている。 このデータセットは、座る、食べる、歩くといった日々のさまざまな活動を行う7人のアクターから取得され、閉塞やその他の困難なシナリオに対するポーズ推定を容易にする。 我々は、その可能性を示すためにデータセットの最先端ポーズ推定手法をベンチマークし、将来の研究の強力なベースラインを確立する。 本研究は, 監視, 医療, スポーツ分析など, 各種応用のポーズ推定におけるデータセットの有効性を示すものである。 データセットとコードはhttps://github.com/avinres/LWIRPOSEで公開されている。

Human pose estimation faces hurdles in real-world applications due to factors like lighting changes, occlusions, and cluttered environments. We introduce a unique RGB-Thermal Nearly Paired and Annotated 2D Pose Dataset, comprising over 2,400 high-quality LWIR (thermal) images. Each image is meticulously annotated with 2D human poses, offering a valuable resource for researchers and practitioners. This dataset, captured from seven actors performing diverse everyday activities like sitting, eating, and walking, facilitates pose estimation on occlusion and other challenging scenarios. We benchmark state-of-the-art pose estimation methods on the dataset to showcase its potential, establishing a strong baseline for future research. Our results demonstrate the dataset's effectiveness in promoting advancements in pose estimation for various applications, including surveillance, healthcare, and sports analytics. The dataset and code are available at https://github.com/avinres/LWIRPOSE
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# GaitPoint+:ポイントクラウド分析とリサイクルを組み合わせた歩行認識ネットワーク

GaitPoint+: A Gait Recognition Network Incorporating Point Cloud Analysis and Recycling ( http://arxiv.org/abs/2404.10213v1 )

ライセンス: Link先を確認
Huantao Ren, Jiajing Chen, Senem Velipasalar, (参考訳) 歩行は行動のバイオメトリック・モダリティであり、遠くから歩く方法で個人を認識できる。 既存の歩行認識アプローチのほとんどはシルエットか骨格に依存しているが、それらの共同使用は未調査である。 シルエットやスケルトンの特徴は、外観変化に対するより堅牢な認識や推定エラーの引き起こしのための補完的な情報を提供することができる。 シルエットと骨格の特徴を両立させるため,GaitPoint+と呼ばれる新しい歩行認識ネットワークを提案する。 提案手法では,スケルトン点を3次元ポイントクラウドとしてモデル化し,計算複雑性を考慮した3次元ポイント処理手法を用いて骨格特徴を抽出し,シルエット特徴と組み合わせて精度を向上する。 シルエットやCNNベースの手法は、既に大量の計算資源を必要とするため、キーポイント学習モジュールはより高速で軽量であることが好ましい。 本報告では,従来のマックスプール使用後のヒトのキーポイントの利用状況について詳細に分析し,肘と足首のポイントが最も多く使用されているが,最大プールにより多くの有用なポイントが破棄されていることを示す。 そこで本研究では,スケルトン点雲の処理中に,リサイクルしたMax-Poolingモジュールによって廃棄された点のいくつかをリサイクルし,さらなる性能向上を実現する方法を提案する。 実験結果の包括的セットを提供する。 二 ポイントベースの3Dポイントクラウド処理手法により得られる骨格の特徴を取り入れることで、3種類の最先端シルエットとCNNベースのベースラインの性能を高める。 (ii) 廃棄された点のリサイクルにより精度が向上する。 また, アプローチの異なるコンポーネントの有効性と寄与を示すために, アブレーション研究も行われている。

Gait is a behavioral biometric modality that can be used to recognize individuals by the way they walk from a far distance. Most existing gait recognition approaches rely on either silhouettes or skeletons, while their joint use is underexplored. Features from silhouettes and skeletons can provide complementary information for more robust recognition against appearance changes or pose estimation errors. To exploit the benefits of both silhouette and skeleton features, we propose a new gait recognition network, referred to as the GaitPoint+. Our approach models skeleton key points as a 3D point cloud, and employs a computational complexity-conscious 3D point processing approach to extract skeleton features, which are then combined with silhouette features for improved accuracy. Since silhouette- or CNN-based methods already require considerable amount of computational resources, it is preferable that the key point learning module is faster and more lightweight. We present a detailed analysis of the utilization of every human key point after the use of traditional max-pooling, and show that while elbow and ankle points are used most commonly, many useful points are discarded by max-pooling. Thus, we present a method to recycle some of the discarded points by a Recycling Max-Pooling module, during processing of skeleton point clouds, and achieve further performance improvement. We provide a comprehensive set of experimental results showing that (i) incorporating skeleton features obtained by a point-based 3D point cloud processing approach boosts the performance of three different state-of-the-art silhouette- and CNN-based baselines; (ii) recycling the discarded points increases the accuracy further. Ablation studies are also provided to show the effectiveness and contribution of different components of our approach.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# ボソニック量子デバイスにおける化学シミュレーション

Simulating Chemistry on Bosonic Quantum Devices ( http://arxiv.org/abs/2404.10214v1 )

ライセンス: Link先を確認
Rishab Dutta, Delmar G. A. Cabral, Ningyi Lyu, Nam P. Vu, Yuchen Wang, Brandon Allen, Xiaohan Dan, Rodrigo G. Cortiñas, Pouya Khazaei, Scott E. Smart, Scott Nie, Michel H. Devoret, David A. Mazziotti, Prineha Narang, Chen Wang, James D. Whitfield, Angela K. Wilson, Heidi P. Hendrickson, Daniel A. Lidar, Francisco Pérez-Bernal, Lea F. Santos, Sabre Kais, Eitan Geva, Victor S. Batista, (参考訳) ボソニック量子デバイスは量子計算を実現するための新しいアプローチを提供し、量子二レベル系(量子ビット)は量子シミュレータの基本構成ブロックとして量子(アン)調和振動子(量子モード)に置き換えられる。 化学構造と力学のシミュレーションは、ボソニック作用素の観点でハミルトニアン系を表現またはマッピングすることで達成できる。 本稿では, 分子ビブロニックスペクトルの計算, 気相, 気相, 気相および非気相のシミュレーション, 分子グラフ理論問題の効率的な解法, 電子構造の計算など, 幅広い化学問題にボソニック量子デバイスを応用した最近の進歩と将来の可能性について述べる。

Bosonic quantum devices offer a novel approach to realize quantum computations, where the quantum two-level system (qubit) is replaced with the quantum (an)harmonic oscillator (qumode) as the fundamental building block of the quantum simulator. The simulation of chemical structure and dynamics can then be achieved by representing or mapping the system Hamiltonians in terms of bosonic operators. In this perspective, we review recent progress and future potential of using bosonic quantum devices for addressing a wide range of challenging chemical problems, including the calculation of molecular vibronic spectra, the simulation of gas-phase and solution-phase adiabatic and nonadiabatic chemical dynamics, the efficient solution of molecular graph theory problems, and the calculations of electronic structure.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# Frontier Exploration を用いた自律型屋内シーン再構築

Autonomous Implicit Indoor Scene Reconstruction with Frontier Exploration ( http://arxiv.org/abs/2404.10218v1 )

ライセンス: Link先を確認
Jing Zeng, Yanxu Li, Jiahao Sun, Qi Ye, Yunlong Ran, Jiming Chen, (参考訳) 暗黙の神経表現は3Dシーンの再構築に有意な可能性を証明している。 最近の研究は、Next Best View (NBV) ベースの手法により、自律的な暗黙的再構築に応用を拡大している。 しかし、NBV法はシーンの完全なカバレッジを保証することができず、特に複雑なシーンにおいて、広範囲な視点サンプリングを必要とすることが多い。 論文の中で,我々は提案する 1)フロンティアをベースとした調査課題を世界規模で実施し,表面の不確実性に基づく再構築タスクを目立たせ,高品質な再構築を実現する。 そして 2)色の不確実性を利用して暗黙的な表面の不確実性を実現する手法を導入し,ビュー選択に要する時間を短縮する。 さらに,これら2つの課題に対して,ビューパス計画における切り替えモードの適応的戦略を提案する。 本手法は, 再建作業を含む手法において, 計画手法の中で最も高い再現性を示し, 計画効率が良好である。 提案手法はUAV上に展開し,提案手法がマルチタスクビューを計画し,高品質なシーンを再構築可能であることを示す。

Implicit neural representations have demonstrated significant promise for 3D scene reconstruction. Recent works have extended their applications to autonomous implicit reconstruction through the Next Best View (NBV) based method. However, the NBV method cannot guarantee complete scene coverage and often necessitates extensive viewpoint sampling, particularly in complex scenes. In the paper, we propose to 1) incorporate frontier-based exploration tasks for global coverage with implicit surface uncertainty-based reconstruction tasks to achieve high-quality reconstruction. and 2) introduce a method to achieve implicit surface uncertainty using color uncertainty, which reduces the time needed for view selection. Further with these two tasks, we propose an adaptive strategy for switching modes in view path planning, to reduce time and maintain superior reconstruction quality. Our method exhibits the highest reconstruction quality among all planning methods and superior planning efficiency in methods involving reconstruction tasks. We deploy our method on a UAV and the results show that our method can plan multi-task views and reconstruct a scene with high quality.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# GPT-4Vを用いた閉ループオープン語彙移動操作

Closed-Loop Open-Vocabulary Mobile Manipulation with GPT-4V ( http://arxiv.org/abs/2404.10220v1 )

ライセンス: Link先を確認
Peiyuan Zhi, Zhiyuan Zhang, Muzhi Han, Zeyu Zhang, Zhitian Li, Ziyuan Jiao, Baoxiong Jia, Siyuan Huang, (参考訳) オープン環境での自律的なロボットナビゲーションと操作は、クローズドループフィードバックによる推論と再計画を必要とする。 COME-robotは,GPT-4Vビジョン言語基盤モデルを利用して,実世界のシナリオにおけるオープンエンド推論と適応計画を行う最初のクローズドループフレームワークである。 我々は,ロボット探索,ナビゲーション,操作のためのアクションプリミティブのライブラリを慎重に構築し,タスク計画におけるGPT-4Vの呼び出し可能な実行モジュールとして機能する。 これらのモジュールに加えて、GPT-4Vはマルチモーダル推論を達成し、コードでアクションポリシーを生成し、タスクの進捗を確認し、再計画のためのフィードバックを提供する脳として機能する。 このような設計はCOME-robotを可能にする (i)環境を積極的に知覚する。 (二)位置推論を行い、 (三)故障から回復する。 8つの挑戦的な実世界のテーブルトップと操作タスクを含む包括的な実験を通じて、COME-robotは最先端のベースライン手法に比べてタスク成功率(~25%)が大幅に向上したことを示した。 さらに, COME-robotの設計が障害復旧, フリーフォーム命令, 長期タスクプランニングをいかに促進するかを明らかにするために, 包括的解析を行う。

Autonomous robot navigation and manipulation in open environments require reasoning and replanning with closed-loop feedback. We present COME-robot, the first closed-loop framework utilizing the GPT-4V vision-language foundation model for open-ended reasoning and adaptive planning in real-world scenarios. We meticulously construct a library of action primitives for robot exploration, navigation, and manipulation, serving as callable execution modules for GPT-4V in task planning. On top of these modules, GPT-4V serves as the brain that can accomplish multimodal reasoning, generate action policy with code, verify the task progress, and provide feedback for replanning. Such design enables COME-robot to (i) actively perceive the environments, (ii) perform situated reasoning, and (iii) recover from failures. Through comprehensive experiments involving 8 challenging real-world tabletop and manipulation tasks, COME-robot demonstrates a significant improvement in task success rate (~25%) compared to state-of-the-art baseline methods. We further conduct comprehensive analyses to elucidate how COME-robot's design facilitates failure recovery, free-form instruction following, and long-horizon task planning.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# ボゾン量子コンピュータにおける電子構造シミュレーション

Simulating electronic structure on bosonic quantum computers ( http://arxiv.org/abs/2404.10222v1 )

ライセンス: Link先を確認
Rishab Dutta, Nam P. Vu, Ningyi Lyu, Chen Wang, Victor S. Batista, (参考訳) 量子調和振動子や量子モードによる計算は、量子コンピューティングに対する有望かつ急速に進化するアプローチである。 2レベル量子系である量子ビットとは対照的に、ボソニック・クモッドは原則として無限個の離散レベルを持つことができ、連続変数基底で表すこともできる。 量子コンピューティングの最も有望な応用の1つは、分子電子構造のような多くのフェルミオン問題をシミュレートすることである。 量子ビットベースの量子ハードウェア上で多くのフェルミオン系をシミュレートする最近の進歩は多いが、量子ビットと量子モッドで表される物理の基本的な違いのため、ボゾン量子デバイスに容易に拡張することはできない。 本研究では、ハミルトニアンの電子構造をフェルミオンとボソンマッピングの方式でクアモッドの系に変換し、2つのクアモッドの系としてジヒドロゲン分子の電子構造をシミュレートする方法について述べる。 我々の研究は、ボゾン量子デバイスのパワーを活用することで、多くのフェルミオン系をシミュレートするための扉を開く。

Computations with quantum harmonic oscillators or qumodes is a promising and rapidly evolving approach towards quantum computing. In contrast to qubits, which are two-level quantum systems, bosonic qumodes can in principle have infinite discrete levels, and can also be represented with continuous variable bases. One of the most promising applications of quantum computing is simulating many-fermion problems such as molecular electronic structure. Although there has been a lot of recent progress on simulating many-fermion systems on qubit-based quantum hardware, they can not be easily extended to bosonic quantum devices due to the fundamental difference in physics represented by qubits and qumodes. In this work, we show how an electronic structure Hamiltonian can be transformed into a system of qumodes with a fermion to boson mapping scheme and apply it to simulate the electronic structure of dihydrogen molecule as a system of two qumodes. Our work opens the door for simulating many-fermion systems by harnessing the power of bosonic quantum devices.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# テンソルネットワークに基づく量子固有値解法

A Quantum Eigenvalue Solver Based on Tensor Networks ( http://arxiv.org/abs/2404.10223v1 )

ライセンス: Link先を確認
Oskar Leimkuhler, K. Birgitta Whaley, (参考訳) 回転軌道上の行列積状態の線形結合から波動関数アンサッツを構成するハイブリッド量子古典固有値解法を導入し, 絡み合いの1次元領域法則の制約を受けない化学基底状態のキャラクタリゼーションを可能にする。 エネルギーは、量子部分空間対角化に基づく勾配のない一般化されたスイープアルゴリズムによって収束し、量子ビット数の線形深さの浅い量子回路に変換されると、外対角行列要素の収縮が指数関数的に高速化される可能性がある。 化学精度は、ストレッチされた水分子と水素原子の八面体配置の両方の数値実験で達成され、一元結合クラスターベンチマークよりもかなり良い相関エネルギーを達成し、量子資源推定の桁違いの減少とショットノイズに対する驚くほど高い耐性を持つ。 この概念実証研究は、近未来の量子ハードウェア上での強相関の強い化学系のシミュレーションをスケールアップするための新しい道のりを示唆している。

We introduce a hybrid quantum-classical eigenvalue solver that constructs a wavefunction ansatz from a linear combination of matrix product states in rotated orbital bases, enabling the characterization of chemical ground states that are not subject to the constraint of a one-dimensional area law of entanglement. The energy is converged via a gradient-free generalized sweep algorithm based on quantum subspace diagonalization, with a potentially exponential speedup in the off-diagonal matrix element contractions upon translation into shallow quantum circuits of linear depth in the number of qubits. Chemical accuracy is attained in numerical experiments for both a stretched water molecule and an octahedral arrangement of hydrogen atoms, achieving substantially better correlation energies compared to a unitary coupled-cluster benchmark, with orders of magnitude reductions in quantum resource estimates and a surprisingly high tolerance to shot noise. This proof-of-concept study suggests a promising new avenue for scaling up simulations of strongly correlated chemical systems on near-term quantum hardware.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# 周期駆動型古典スピン系における予熱

Prethermalization in aperiodically driven classical spin systems ( http://arxiv.org/abs/2404.10224v1 )

ライセンス: Link先を確認
Sajag Kumar, Sayan Choudhury, (参考訳) 周期的に駆動される古典的な多体系は、予熱力学相の豊富な動物園をホストすることができる。 本研究では、古典的予熱のパラダイムを、周期的に駆動されるシステムに拡張する。 我々は、ランダム多極性駆動(RMD)を受けるスピン系における長寿命予熱状態の存在を確立する。 熱化時間は1/T)^{2n+2}$で、$n$は多極性、$T$はドライブに付随する固有の時間スケールである。 n \rightarrow \infty$制限では、駆動は準周期となり、熱化時間は指数関数的に長い(\sim \exp(\beta/T)$)。 我々は, これらの熱化時間スケーリング法則が初期エネルギー密度の広い範囲を保っていることを示すことにより, 予熱の堅牢性をさらに確立する。 興味深いことに、これらの古典系の熱化過程は、量子化よりもパラメトリックに遅いため、古典的な前熱化と量子的な前熱化の間に重要な違いが浮かび上がっている。 最後に、この古典的予熱を利用して時間ロンドー結晶を実現するためのプロトコルを提案する。

Periodically driven classical many-body systems can host a rich zoo of prethermal dynamical phases. In this work, we extend the paradigm of classical prethermalization to aperiodically driven systems. We establish the existence of a long-lived prethermal regime in spin systems subjected to random multipolar drives (RMDs). We demonstrate that the thermalization time scales as $(1/T)^{2n+2}$, where $n$ is the multipolar order and $T$ is the intrinsic time-scale associated with the drive. In the $n \rightarrow \infty$ limit, the drive becomes quasi-periodic and the thermalization time becomes exponentially long ($\sim \exp(\beta/T)$). We further establish the robustness of prethermalization by demonstrating that these thermalization time scaling laws hold for a wide range of initial state energy densities. Intriguingly, the thermalization process in these classical systems is parametrically slower than their quantum counterparts, thereby highlighting important differences between classical and quantum prethermalization. Finally, we propose a protocol to harness this classical prethermalization to realize time rondeau crystals.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# ファンデーションモデル時代におけるソフトウェアエンジニアリングの再考:タスク駆動AIコパイロットからゴール駆動AIペアプログラマへ

Rethinking Software Engineering in the Foundation Model Era: From Task-Driven AI Copilots to Goal-Driven AI Pair Programmers ( http://arxiv.org/abs/2404.10225v1 )

ライセンス: Link先を確認
Ahmed E. Hassan, Gustavo A. Oliva, Dayi Lin, Boyuan Chen, Zhen Ming, Jiang, (参考訳) ファンデーションモデル(FM)とAI駆動のパトリオットの出現は、ソフトウェア開発の状況を変え、前例のないコード補完機能を提供し、開発者の生産性を向上した。 しかしながら、これらのコピロの現在のタスク駆動の性質は、ソフトウェア工学(SE)に固有の、より広範な目標と複雑さに対処するのに不足しています。 本稿では、より包括的でコンテキスト対応な方法で、人間開発者と協調する、ゴール駆動型AI駆動ペアプログラマへのパラダイムシフトを提案する。 私たちは、ゴール駆動、ヒューマンパートナー、SE-Aware、セルフラーニングといったAIペアプログラマを想定しています。 これらのAIパートナは、反復的な会話駆動開発プロセスに従事し、人間の目標と密接に整合し、情報的な意思決定を促進する。 このようなAIペアプログラマの望ましい属性について議論し、このビジョンを実現するために対処しなければならない重要な課題を概説する。 最終的に私たちの仕事は、コード補完を、生産性とソフトウェア品質の両方を向上する、人間とAIの協力的なパートナーシップに置き換えることで、AI拡張されたSEからAI変換されたSEへのシフトを表します。

The advent of Foundation Models (FMs) and AI-powered copilots has transformed the landscape of software development, offering unprecedented code completion capabilities and enhancing developer productivity. However, the current task-driven nature of these copilots falls short in addressing the broader goals and complexities inherent in software engineering (SE). In this paper, we propose a paradigm shift towards goal-driven AI-powered pair programmers that collaborate with human developers in a more holistic and context-aware manner. We envision AI pair programmers that are goal-driven, human partners, SE-aware, and self-learning. These AI partners engage in iterative, conversation-driven development processes, aligning closely with human goals and facilitating informed decision-making. We discuss the desired attributes of such AI pair programmers and outline key challenges that must be addressed to realize this vision. Ultimately, our work represents a shift from AI-augmented SE to AI-transformed SE by replacing code completion with a collaborative partnership between humans and AI that enhances both productivity and software quality.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# Find the Gap:ビジュアル質問応答のための知識ベース推論

Find The Gap: Knowledge Base Reasoning For Visual Question Answering ( http://arxiv.org/abs/2404.10226v1 )

ライセンス: Link先を確認
Elham J. Barezi, Parisa Kordjamshidi, (参考訳) 我々は、知識に基づく視覚的質問応答の分析を行い、与えられた質問に対して、モデルがそれを視覚的モダリティに根ざし、与えられた大きな知識ベース(KB)から関連する知識を取り出す必要がある。 我々の分析には2つの折り畳みがあり、1つはニューラルアーキテクチャを設計し、それらをスクラッチからトレーニングし、もう1つは大規模事前学習言語モデル(LLM)に基づく。 私たちの研究の質問は以下のとおりです。 1) KB-VQA問題を解決するために, 関連KB情報の明示的な教師付き検索により, 効果的にモデルを拡張できるか? 2)視覚・外的知識の統合や情報ソース間のマルチホップ推論において,タスク固有モデルとLCMベースモデルはどのように機能するか。 3) LLM の暗黙的知識は KB-VQA に十分で、明示的な KB を置き換えることができる程度に十分か? 本研究は,外的・視覚的知識検索モデルを用いたタスク固有モデルとLLMモデルの強化効果を実証するものである。 以上の結果から,LLMは1ホップの推論では強いが,2ホップの推論では2ホップの推論に苦しむことが明らかとなった。 さらに, LLMモデルでは, LLMにおける暗黙的知識の有効性を検証した KB 関連質問に対して, NN モデルよりも優れており, 外部KB の必要性は軽減されない。

We analyze knowledge-based visual question answering, for which given a question, the models need to ground it into the visual modality and retrieve the relevant knowledge from a given large knowledge base (KB) to be able to answer. Our analysis has two folds, one based on designing neural architectures and training them from scratch, and another based on large pre-trained language models (LLMs). Our research questions are: 1) Can we effectively augment models by explicit supervised retrieval of the relevant KB information to solve the KB-VQA problem? 2) How do task-specific and LLM-based models perform in the integration of visual and external knowledge, and multi-hop reasoning over both sources of information? 3) Is the implicit knowledge of LLMs sufficient for KB-VQA and to what extent it can replace the explicit KB? Our results demonstrate the positive impact of empowering task-specific and LLM models with supervised external and visual knowledge retrieval models. Our findings show that though LLMs are stronger in 1-hop reasoning, they suffer in 2-hop reasoning in comparison with our fine-tuned NN model even if the relevant information from both modalities is available to the model. Moreover, we observed that LLM models outperform the NN model for KB-related questions which confirms the effectiveness of implicit knowledge in LLMs however, they do not alleviate the need for external KB.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# MS-MANO:バイオメカニカル制約によるハンドポーズトラッキングの実現

MS-MANO: Enabling Hand Pose Tracking with Biomechanical Constraints ( http://arxiv.org/abs/2404.10227v1 )

ライセンス: Link先を確認
Pengfei Xie, Wenqiang Xu, Tutian Tang, Zhenjun Yu, Cewu Lu, (参考訳) 本研究は,手の動きの生理的側面を考慮した視覚的手動解析のための新しい学習フレームワークを提案する。 既存のモデルは、単純化されたジョイントアクチュエータシステムであり、しばしば不自然な動きを発生させる。 そこで我々は,筋骨格系を学習可能なパラメトリックハンドモデルMANOと統合し,新しいモデルMS-MANOを作成する。 このモデルは骨格系を駆動する筋肉と腱の力学をエミュレートし、結果として生じるトルク軌跡に生理学的に現実的な制約を与える。 さらに,マルチ層パーセプトロン(MLP)ネットワークによる初期推定ポーズを洗練させるシミュレーション・イン・ザ・ループ・ポーズ・リファインメント・フレームワークであるBioPRを提案する。 本研究は,MS-MANOの精度とBioPRの有効性を2つに分けて評価した。 MS-MANOの精度をMyoSuiteと比較し、BioPRの有効性を2つの大規模パブリックデータセットと2つの最新の最先端手法でベンチマークする。 その結果,本手法は定量的かつ定性的に基礎的手法を一貫して改善することを示した。

This work proposes a novel learning framework for visual hand dynamics analysis that takes into account the physiological aspects of hand motion. The existing models, which are simplified joint-actuated systems, often produce unnatural motions. To address this, we integrate a musculoskeletal system with a learnable parametric hand model, MANO, to create a new model, MS-MANO. This model emulates the dynamics of muscles and tendons to drive the skeletal system, imposing physiologically realistic constraints on the resulting torque trajectories. We further propose a simulation-in-the-loop pose refinement framework, BioPR, that refines the initial estimated pose through a multi-layer perceptron (MLP) network. Our evaluation of the accuracy of MS-MANO and the efficacy of the BioPR is conducted in two separate parts. The accuracy of MS-MANO is compared with MyoSuite, while the efficacy of BioPR is benchmarked against two large-scale public datasets and two recent state-of-the-art methods. The results demonstrate that our approach consistently improves the baseline methods both quantitatively and qualitatively.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# 2段階のスタンスラベル:グラフニューラルネットワークを用いたユーザハッシュタグヒューリスティックス

Two-Stage Stance Labeling: User-Hashtag Heuristics with Graph Neural Networks ( http://arxiv.org/abs/2404.10228v1 )

ライセンス: Link先を確認
Joshua Melton, Shannon Reid, Gabriel Terejanu, Siddharth Krishnan, (参考訳) ソーシャルメディア上でのコンテンツ量の増大と急速な進化は、ソーシャルメディア利用者のスタンスを研究する上で大きな課題となる。 本研究では,ユーザ・ハッシュタグ二部グラフとユーザ・ユーザインタラクショングラフを用いた2段階のスタンスラベリング手法を提案する。 第1段階では、ユーザのハッシュタグ二部グラフを用いて、ラベル伝搬機構を介して、ユーザとハッシュタグノードのスタンス関連を反復的に更新する。 このソフトラベルのセットは、ユーザとユーザのインタラクショングラフに統合され、半教師付き学習を使用してグラフニューラルネットワーク(GNN)モデルをトレーニングする。 本手法は,2021年6月から2022年6月までの気候変動に関連するツイートと,2022年1月から2023年1月までの銃規制を含む2つの大規模データセットに対して評価を行った。 実験により,ユーザハッシュタグヒューリスティックと半教師付きGNN法は,GPT4などのLCMを用いたゼロショットスタンスラベルよりも優れていることが示された。 さらなる分析は、気候変動や銃規制といった様々な問題に対するソーシャルメディアの相互作用の分極を評価するために、スタンスラベル情報と相互作用グラフをどのように利用できるかを示している。

The high volume and rapid evolution of content on social media present major challenges for studying the stance of social media users. In this work, we develop a two stage stance labeling method that utilizes the user-hashtag bipartite graph and the user-user interaction graph. In the first stage, a simple and efficient heuristic for stance labeling uses the user-hashtag bipartite graph to iteratively update the stance association of user and hashtag nodes via a label propagation mechanism. This set of soft labels is then integrated with the user-user interaction graph to train a graph neural network (GNN) model using semi-supervised learning. We evaluate this method on two large-scale datasets containing tweets related to climate change from June 2021 to June 2022 and gun control from January 2022 to January 2023. Experiments demonstrate that our user-hashtag heuristic and the semi-supervised GNN method outperform zero-shot stance labeling using LLMs such as GPT4. Further analysis illustrates how the stance labeling information and interaction graph can be used for evaluating the polarization of social media interactions on divisive issues such as climate change and gun control.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# 大規模言語モデルを用いたテキストステレオグラフィ

Generative Text Steganography with Large Language Model ( http://arxiv.org/abs/2404.10229v1 )

ライセンス: Link先を確認
Jiaxuan Wu, Zhengxian Wu, Yiming Xue, Juan Wen, Wanli Peng, (参考訳) 大規模言語モデル(LLM)の最近の進歩は、人間と機械の間の高品質なテキスト生成の境界を曖昧にしており、生成的テキストステガノグラフィーに好適である。 しかし、現在の高度なステガノグラフマッピングは、ほとんどのユーザは、LCMのブラックボックスAPIやユーザーインターフェースのみにアクセスすることに制限されているため、トレーニング語彙やサンプリング確率にアクセスできないため、LSMには適していない。 本稿では,LLM-Stegaと呼ばれる大規模言語モデルのユーザインタフェースに基づくブラックボックス生成テキストステガノグラフィー手法について検討する。 LLM-Stegaの主な目的は、Alice (sender) と Bob (receiver) のセキュアな秘密通信がLLMのユーザインタフェースを用いて行われることである。 具体的には、まずキーワードセットを構築し、秘密メッセージを埋め込むための新しい暗号化されたステガノグラフマッピングを設計する。 さらに、秘密メッセージの正確な抽出と生成されたステゴテキストのリッチセマンティクスを保証するため、リジェクションサンプリングに基づく最適化機構を提案する。 総合的な実験により、LLM-Stegaは現在の最先端手法よりも優れていることが示された。

Recent advances in large language models (LLMs) have blurred the boundary of high-quality text generation between humans and machines, which is favorable for generative text steganography. While, current advanced steganographic mapping is not suitable for LLMs since most users are restricted to accessing only the black-box API or user interface of the LLMs, thereby lacking access to the training vocabulary and its sampling probabilities. In this paper, we explore a black-box generative text steganographic method based on the user interfaces of large language models, which is called LLM-Stega. The main goal of LLM-Stega is that the secure covert communication between Alice (sender) and Bob (receiver) is conducted by using the user interfaces of LLMs. Specifically, We first construct a keyword set and design a new encrypted steganographic mapping to embed secret messages. Furthermore, to guarantee accurate extraction of secret messages and rich semantics of generated stego texts, an optimization mechanism based on reject sampling is proposed. Comprehensive experiments demonstrate that the proposed LLM-Stega outperforms current state-of-the-art methods.
翻訳日:2024-04-17 18:22:10 公開日:2024-04-16
# 圧縮性と探索性:学習画像圧縮によるAIネイティブマルチモーダル検索システム

Compressible and Searchable: AI-native Multi-Modal Retrieval System with Learned Image Compression ( http://arxiv.org/abs/2404.10234v1 )

ライセンス: Link先を確認
Jixiang Luo, (参考訳) 多様なモダリティにまたがるデジタルコンテンツの膨大化は、効率的なストレージと検索方法を必要とする。 従来のアプローチは、マルチメディアデータのエスカレートする複雑さとスケールに対応するのに苦労する。 本稿では,AIネイティブなマルチモーダル検索機能をニューラルネットワーク圧縮に融合させることにより,この問題に対処するフレームワークを提案する。 まず, 圧縮性と探索可能性の複雑な関係を解析し, 記憶・検索システムの効率性において, それぞれが果たす重要な役割を認識した。 単純なアダプタを利用することで、Learned Image Compression(LIC)とContrastive Language-Image Pretraining(CLIP)の特徴をブリッジし、セマンティックな忠実さを維持し、マルチモーダルデータの検索を行う。 Kodakデータセットを用いた実験により,提案手法の有効性を実証し,既存の手法と比較して圧縮効率と探索精度が著しく向上したことを示す。 我々の研究は、ビッグデータ時代におけるスケーラブルで効率的なマルチモーダル検索システムへの大きな進歩を示している。

The burgeoning volume of digital content across diverse modalities necessitates efficient storage and retrieval methods. Conventional approaches struggle to cope with the escalating complexity and scale of multimedia data. In this paper, we proposed framework addresses this challenge by fusing AI-native multi-modal search capabilities with neural image compression. First we analyze the intricate relationship between compressibility and searchability, recognizing the pivotal role each plays in the efficiency of storage and retrieval systems. Through the usage of simple adapter is to bridge the feature of Learned Image Compression(LIC) and Contrastive Language-Image Pretraining(CLIP) while retaining semantic fidelity and retrieval of multi-modal data. Experimental evaluations on Kodak datasets demonstrate the efficacy of our approach, showcasing significant enhancements in compression efficiency and search accuracy compared to existing methodologies. Our work marks a significant advancement towards scalable and efficient multi-modal search systems in the era of big data.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# MoE-TinyMed:医療用大型視線モデルの専門家の混在

MoE-TinyMed: Mixture of Experts for Tiny Medical Large Vision-Language Models ( http://arxiv.org/abs/2404.10237v1 )

ライセンス: Link先を確認
Songtao Jiang, Tuo Zheng, Yan Zhang, Yeying Jin, Zuozhu Liu, (参考訳) また,Mixture of Expert Tuning (MoE-Tuning) は,パラメータが少ない一般MLLMの性能を効果的に向上させた。 このギャップに対処するため,パラメータ要求を大幅に低減する医療応用に適したモデルであるMoE-TinyMedを開発した。 VQA-RAD、SLAKE、Path-VQAデータセットの評価において、MoE-TinyMedはわずか3.6BパラメータですべてのMed-VQAクローズドセッティングでLLaVA-Medを上回った。 さらに、2Bパラメータを持つ合理化バージョンは、PathVQAにおけるLLaVA-Medのパフォーマンスを上回り、リソース制限された医療設定におけるその効果を示している。

Mixture of Expert Tuning (MoE-Tuning) has effectively enhanced the performance of general MLLMs with fewer parameters, yet its application in resource-limited medical settings has not been fully explored. To address this gap, we developed MoE-TinyMed, a model tailored for medical applications that significantly lowers parameter demands. In evaluations on the VQA-RAD, SLAKE, and Path-VQA datasets, MoE-TinyMed outperformed LLaVA-Med in all Med-VQA closed settings with just 3.6B parameters. Additionally, a streamlined version with 2B parameters surpassed LLaVA-Med's performance in PathVQA, showcasing its effectiveness in resource-limited healthcare settings.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# 因果学習による視覚・言語ナビゲーション

Vision-and-Language Navigation via Causal Learning ( http://arxiv.org/abs/2404.10241v1 )

ライセンス: Link先を確認
Liuyi Wang, Zongtao He, Ronghao Dang, Mengjiao Shen, Chengju Liu, Qijun Chen, (参考訳) 堅牢で一般化可能な環境認識と言語理解の追求において、データセットバイアスのユビキタスな課題は、視覚・言語ナビゲーション(VLN)エージェントに悩まされ、目に見えない環境でのパフォーマンスを妨げ続けている。 本稿では、一般化されたクロスモーダル因果変換器(GOAT)を紹介し、因果推論のパラダイムに根ざした先駆的解である。 視覚,言語,歴史の両面において,観測不能かつ観測不能な共同創設者を掘り下げることにより,潜在的刺激的相関を包括的に緩和し,バイアスのない学習を促進するために,バックドアおよびフロントドア調整因果学習(BACL,FACL)モジュールを提案する。 さらに,グローバルな共同創設者の特徴を捉えるために,コントラスト学習によって教師されるクロスモーダル機能プーリング(CFP)モジュールを提案する。 複数のVLNデータセット(R2R、REVERIE、RxR、SOON)にわたる大規模な実験により、提案手法が従来の最先端手法よりも優れていることを示す。 コードはhttps://github.com/CrystalSixone/VLN-GOATで公開されている。

In the pursuit of robust and generalizable environment perception and language understanding, the ubiquitous challenge of dataset bias continues to plague vision-and-language navigation (VLN) agents, hindering their performance in unseen environments. This paper introduces the generalized cross-modal causal transformer (GOAT), a pioneering solution rooted in the paradigm of causal inference. By delving into both observable and unobservable confounders within vision, language, and history, we propose the back-door and front-door adjustment causal learning (BACL and FACL) modules to promote unbiased learning by comprehensively mitigating potential spurious correlations. Additionally, to capture global confounder features, we propose a cross-modal feature pooling (CFP) module supervised by contrastive learning, which is also shown to be effective in improving cross-modal representations during pre-training. Extensive experiments across multiple VLN datasets (R2R, REVERIE, RxR, and SOON) underscore the superiority of our proposed method over previous state-of-the-art approaches. Code is available at https://github.com/CrystalSixone/VLN-GOAT.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# 顕微鏡用マスケオートエンコーダは細胞生物学のスケーラブルな学習者である

Masked Autoencoders for Microscopy are Scalable Learners of Cellular Biology ( http://arxiv.org/abs/2404.10242v1 )

ライセンス: Link先を確認
Oren Kraus, Kian Kenyon-Dean, Saber Saberian, Maryam Fallah, Peter McLean, Jess Leung, Vasudev Sharma, Ayla Khan, Jia Balakrishnan, Safiye Celik, Dominique Beaini, Maciej Sypetkowski, Chi Vicky Cheng, Kristen Morse, Maureen Makes, Ben Mabey, Berton Earnshaw, (参考訳) 生物学的研究に使用する顕微鏡画像の小型化は、特に数百万枚の画像にまたがる大規模な実験において重要な課題である。 本研究は,より大規模なモデルバックボーンと顕微鏡データセットを用いたトレーニングにおいて,弱教師付き分類器と自己教師付きマスク付きオートエンコーダ(MAE)のスケーリング特性について検討する。 以上の結果から,ViTをベースとしたMAEは,様々なタスクにおいて弱い教師付き分類器よりも優れており,公的なデータベースから得られた既知の生物学的関係を思い出すと,11.5%の相対的な改善が達成されることがわかった。 さらに,チャネルに依存しない新しいMAEアーキテクチャ(CA-MAE)を開発し,異なる数のチャネルと順序の画像を推論時に入力する。 実験条件の異なる顕微鏡画像データセット(JUMP-CP)を予備学習データ(RPI-93M)と異なるチャネル構造で推定し,評価することにより,CA-MAEが効果的に一般化できることを実証した。 我々の研究は、薬物発見等の進歩を触媒する可能性を持つ細胞生物学の強力な基盤モデルを構築するために、顕微鏡データに基づく自己教師型学習のスケーリングに関する継続的な研究を動機付けている。

Featurizing microscopy images for use in biological research remains a significant challenge, especially for large-scale experiments spanning millions of images. This work explores the scaling properties of weakly supervised classifiers and self-supervised masked autoencoders (MAEs) when training with increasingly larger model backbones and microscopy datasets. Our results show that ViT-based MAEs outperform weakly supervised classifiers on a variety of tasks, achieving as much as a 11.5% relative improvement when recalling known biological relationships curated from public databases. Additionally, we develop a new channel-agnostic MAE architecture (CA-MAE) that allows for inputting images of different numbers and orders of channels at inference time. We demonstrate that CA-MAEs effectively generalize by inferring and evaluating on a microscopy image dataset (JUMP-CP) generated under different experimental conditions with a different channel structure than our pretraining data (RPI-93M). Our findings motivate continued research into scaling self-supervised learning on microscopy data in order to create powerful foundation models of cellular biology that have the potential to catalyze advancements in drug discovery and beyond.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# オフラインとオンライン体験から学ぶ:ハイブリッド適応型演算子選択フレームワーク

Learning from Offline and Online Experiences: A Hybrid Adaptive Operator Selection Framework ( http://arxiv.org/abs/2404.10252v1 )

ライセンス: Link先を確認
Jiyuan Pei, Jialin Liu, Yi Mei, (参考訳) 多くの実践的応用において、通常、同様の最適化問題やシナリオが繰り返し現れる。 従来の問題解決経験から学んだことは、メタヒューリスティック(メタヒューリスティック)のアルゴリズムコンポーネント、例えば、有望な探索演算子を適応的に選択することで、より良い最適化性能を実現するのに役立つ。 しかし,従来の問題,すなわちオフライン経験から得られた経験は,以前の問題と新しい問題の特徴が相対的に異なる場合,新しい問題を解く際に誤解を招くような認識を与えることがある。 進行中の問題解決プロセスで得られたオンライン経験から学ぶことは、より教育的だが、限られた計算資源によって非常に制限される。 本稿では,オフライン体験とオンライン体験を効果的に組み合わせることに焦点を当てる。 探索演算子を動的かつ適応的に選択する新しいハイブリッドフレームワークを提案する。 相補的なパラダイムを持つ2つの適応演算子選択モジュールは、オフラインおよびオンラインの経験から学び、意思決定を行うためにフレームワークに協力する。 適応的な決定ポリシーは、これら2つのモジュールの使用をオンライン的にバランスをとるために維持される。 170の広範に研究されている実値ベンチマーク最適化問題に対する広範な実験と、組合せ最適化のための34のインスタンスからなるベンチマークセットは、提案したハイブリッドフレームワークが最先端の手法よりも優れていることを示している。 アブレーション研究は、フレームワークの各コンポーネントの有効性を検証する。

In many practical applications, usually, similar optimisation problems or scenarios repeatedly appear. Learning from previous problem-solving experiences can help adjust algorithm components of meta-heuristics, e.g., adaptively selecting promising search operators, to achieve better optimisation performance. However, those experiences obtained from previously solved problems, namely offline experiences, may sometimes provide misleading perceptions when solving a new problem, if the characteristics of previous problems and the new one are relatively different. Learning from online experiences obtained during the ongoing problem-solving process is more instructive but highly restricted by limited computational resources. This paper focuses on the effective combination of offline and online experiences. A novel hybrid framework that learns to dynamically and adaptively select promising search operators is proposed. Two adaptive operator selection modules with complementary paradigms cooperate in the framework to learn from offline and online experiences and make decisions. An adaptive decision policy is maintained to balance the use of those two modules in an online manner. Extensive experiments on 170 widely studied real-value benchmark optimisation problems and a benchmark set with 34 instances for combinatorial optimisation show that the proposed hybrid framework outperforms the state-of-the-art methods. Ablation study verifies the effectiveness of each component of the framework.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# オンデバイスインテリジェンスのためのプライバシ保護型トレーニング・アズ・ア・サービス:概念,アーキテクチャ,オープンな問題

Privacy-Preserving Training-as-a-Service for On-Device Intelligence: Concept, Architectural Scheme, and Open Problems ( http://arxiv.org/abs/2404.10255v1 )

ライセンス: Link先を確認
Zhiyuan Wu, Sheng Sun, Yuwei Wang, Min Liu, Bo Gao, Tianliu He, Wen Wang, (参考訳) オンデバイスインテリジェンス(ODI)は、人工知能(AI)アプリケーションをエンドデバイス上で動作させ、リモートサーバに頼ることなく、リアルタイムでカスタマイズされたAIサービスを提供する。 しかし、デバイス上でのデプロイメントのトレーニングモデルは、ユーザのデータの分散化とプライバシに敏感な性質に加えて、ネットワーク接続や計算効率などに関わるエンドサイドの制約によって、大きな課題に直面している。 クラウドベースのトレーニング、フェデレートドラーニング、トランスファーラーニングといった既存のトレーニングパラダイムは、デバイスで一般的なこれらの実践的な制約に十分に対処できない。 これらの課題を克服するために、プライバシー保護トレーニング・アズ・ア・サービス(PTaaS、Privacy-Preserving Training-as-a-Service)を提案する。 PTaaSは、コアトレーニングプロセスをリモートで強力なクラウドまたはエッジサーバにアウトソースし、アップロードされた匿名クエリに基づいたカスタマイズされたオンデバイスモデルを効率的に開発し、個々のデバイスでの計算負荷を低減しながらデータのプライバシを確保する。 PTaaSパラダイムをサポートする新興技術とともに、PTaaSの定義、目標、設計原則について検討する。 PTaaSのアーキテクチャスキームも提示され、それに続いて、PTaaSの分野における今後の研究方向性の舞台となる一連のオープンな問題も提示されている。

On-device intelligence (ODI) enables artificial intelligence (AI) applications to run on end devices, providing real-time and customized AI services without relying on remote servers. However, training models for on-device deployment face significant challenges due to the decentralized and privacy-sensitive nature of users' data, along with end-side constraints related to network connectivity, computation efficiency, etc. Existing training paradigms, such as cloud-based training, federated learning, and transfer learning, fail to sufficiently address these practical constraints that are prevalent for devices. To overcome these challenges, we propose Privacy-Preserving Training-as-a-Service (PTaaS), a novel service computing paradigm that provides privacy-friendly, customized AI model training for end devices. PTaaS outsources the core training process to remote and powerful cloud or edge servers, efficiently developing customized on-device models based on uploaded anonymous queries, ensuring data privacy while reducing the computation load on individual devices. We explore the definition, goals, and design principles of PTaaS, alongside emerging technologies that support the PTaaS paradigm. An architectural scheme for PTaaS is also presented, followed by a series of open problems that set the stage for future research directions in the field of PTaaS.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# 高速量子ラジオ・オーバライト通信

High-speed quantum radio-frequency-over-light communication ( http://arxiv.org/abs/2404.10256v1 )

ライセンス: Link先を確認
Shaocong Liang, Jialin Cheng, Jiliang Qin, Jiatong Li, Yi Shi, Zhihui Yan, Xiaojun Jia, Changde Xie, Kunchi Peng, (参考訳) 量子密度符号化(QDC)は、1つの量子ビットのみを転送することで、2つの古典的なビットを伝送することを意味する。 連続可変QDCは、古典的な通信システムとのシームレスな統合を実現しつつ、通信速度を向上させるための有望なソリューションを提供する。 本稿では,QDCと絡み合った状態のRFoL通信方式の提案と実験を行い,デジタル変調とRFoL通信による20Mbpsの実用率を実現する。 このスキームは量子技術と実世界の通信システムとのギャップを埋め、QDCを実用的な応用に近づけ、大都市圏の通信ネットワークをさらに強化する展望を提供する。

Quantum dense coding (QDC) means to transmit two classical bits by only transferring one quantum bit, which has enabled high-capacity information transmission and strengthened system security. Continuousvariable QDC offers a promising solution to increase communication rates while achieving seamless integration with classical communication systems. Here, we propose and experimentally demonstrate a high-speed quantum radio-frequency-over-light (RFoL) communication scheme based on QDC with entangled state, and achieve a practical rate of 20 Mbps through digital modulation and RFoL communication. This scheme bridges the gap between quantum technology and real-world communication systems, which bring QDC closer to practical applications and offer prospects for further enhancement of metropolitan communication networks.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# LLMs-in-the-Loop戦略によるソーシャルメディアメッセージングにおける潜在的論点の解明

Uncovering Latent Arguments in Social Media Messaging by Employing LLMs-in-the-Loop Strategy ( http://arxiv.org/abs/2404.10259v1 )

ライセンス: Link先を確認
Tunazzina Islam, Dan Goldwasser, (参考訳) ソーシャルメディアの普及により、世論分析の自動化手法として人気が高まっている。 改訂された手法はテキストの分類に適しているが、ソーシャルメディアの議論のダイナミックな性質は、焦点の連続的なシフトにより、これらの技術に継続的な挑戦をもたらす。 一方,トピックモデリングなどの話題からテーマを抽出する従来の教師なし手法では,特定のニュアンスを捉えないような過度なパターンがしばしば現れる。 その結果、ソーシャルメディアの談話研究のかなりの部分は、労働集約的な手作業によるコーディング技術と、時間と費用のかかる人道的なアプローチに依存している。 本研究では,特定のテーマに関連付けられた議論の発見問題について考察する。 本稿では,Large Language Models (LLM) の高度な機能を活用し,ソーシャルメディアのメッセージから潜在的議論を抽出する汎用 LLM-in-the-Loop 戦略を提案する。 このアプローチを実証するために、我々のフレームワークを議論の多いトピックに適用する。 1) テーマが25のFacebook広告14kの気候キャンペーンデータセットと,(2) テーマが14のFacebook広告9kの新型コロナウイルスワクチンキャンペーンデータセットである。 さらに、実世界の出来事に基づいて、人口統計ターゲティングとメッセージの適応を分析する。

The widespread use of social media has led to a surge in popularity for automated methods of analyzing public opinion. Supervised methods are adept at text categorization, yet the dynamic nature of social media discussions poses a continual challenge for these techniques due to the constant shifting of the focus. On the other hand, traditional unsupervised methods for extracting themes from public discourse, such as topic modeling, often reveal overarching patterns that might not capture specific nuances. Consequently, a significant portion of research into social media discourse still depends on labor-intensive manual coding techniques and a human-in-the-loop approach, which are both time-consuming and costly. In this work, we study the problem of discovering arguments associated with a specific theme. We propose a generic LLMs-in-the-Loop strategy that leverages the advanced capabilities of Large Language Models (LLMs) to extract latent arguments from social media messaging. To demonstrate our approach, we apply our framework to contentious topics. We use two publicly available datasets: (1) the climate campaigns dataset of 14k Facebook ads with 25 themes and (2) the COVID-19 vaccine campaigns dataset of 9k Facebook ads with 14 themes. Furthermore, we analyze demographic targeting and the adaptation of messaging based on real-world events.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# HelixFold-Multimer:新しい高さへのタンパク質複合体構造予測

HelixFold-Multimer: Elevating Protein Complex Structure Prediction to New Heights ( http://arxiv.org/abs/2404.10260v1 )

ライセンス: Link先を確認
Xiaomin Fang, Jie Gao, Jing Hu, Lihang Liu, Yang Xue, Xiaonan Zhang, Kunrui Zhu, (参考訳) モノマータンパク質構造予測ツールは驚くほどの精度を誇っているが、タンパク質複合体構造の予測はこの分野において大きな課題である。 この課題は、抗原と抗体の相互作用など、異なる種のタンパク質鎖との複合体が、精度が低いケースで特に顕著である。 複雑な予測の精度によって制限された、正確なタンパク質とタンパク質の相互作用分析に基づくタスクも障害に直面している。 本稿では,タンパク質複合体構造予測モデルであるHelixFold-Multimerの進歩について述べる。 HelixFold-Multimerは、タンパク質の複雑な構造を正確に予測する。 特に、HelixFold-Multimerは抗原抗体およびペプチド-タンパク質構造予測において顕著な成功を収め、AlphaFold-Multimerを数倍上回っている。 HelixFold-MultimerはPaddleHelixプラットフォームで公開されている。 研究者たちは、このサービスを自分たちの開発ニーズのために便利に利用することができる。

While monomer protein structure prediction tools boast impressive accuracy, the prediction of protein complex structures remains a daunting challenge in the field. This challenge is particularly pronounced in scenarios involving complexes with protein chains from different species, such as antigen-antibody interactions, where accuracy often falls short. Limited by the accuracy of complex prediction, tasks based on precise protein-protein interaction analysis also face obstacles. In this report, we highlight the ongoing advancements of our protein complex structure prediction model, HelixFold-Multimer, underscoring its enhanced performance. HelixFold-Multimer provides precise predictions for diverse protein complex structures, especially in therapeutic protein interactions. Notably, HelixFold-Multimer achieves remarkable success in antigen-antibody and peptide-protein structure prediction, surpassing AlphaFold-Multimer by several folds. HelixFold-Multimer is now available for public use on the PaddleHelix platform, offering both a general version and an antigen-antibody version. Researchers can conveniently access and utilize this service for their development needs.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# ガウス混合モデルと最適輸送を用いたより軽く、より良く、より高速なマルチソースドメイン適応

Lighter, Better, Faster Multi-Source Domain Adaptation with Gaussian Mixture Models and Optimal Transport ( http://arxiv.org/abs/2404.10261v1 )

ライセンス: Link先を確認
Eduardo Fernandes Montesuma, Fred Ngolè Mboula, Antoine Souloumiac, (参考訳) 本稿では,複数の異種ラベル付きソース確率測度を,異なるラベル付きターゲット測度に適応させるトランスファー学習の課題であるMulti-Source Domain Adaptation(MSDA)に取り組む。 最適輸送(OT)とガウス混合モデル(GMM)に基づくMSDAのための新しいフレームワークを提案する。 私たちのフレームワークには2つの大きな利点があります。 第一に、GMM間のOTは線形プログラミングによって効率的に解ける。 第2に、GMMのコンポーネントが既存のクラスに関連付けることができるため、教師付き学習、特に分類のための便利なモデルを提供する。 GMM-OT問題に基づいて,GMMのバリセンタを計算する新しい手法を提案する。 このアルゴリズムに基づいて,GMM-WBTとGMM-DaDiLの2つの新しい戦略を提案する。 画像分類と故障診断の4つのベンチマークで提案手法を実証的に評価し,より高速かつ少ないパラメータを伴いながら,先行技術よりも改善したことを示す。

In this paper, we tackle Multi-Source Domain Adaptation (MSDA), a task in transfer learning where one adapts multiple heterogeneous, labeled source probability measures towards a different, unlabeled target measure. We propose a novel framework for MSDA, based on Optimal Transport (OT) and Gaussian Mixture Models (GMMs). Our framework has two key advantages. First, OT between GMMs can be solved efficiently via linear programming. Second, it provides a convenient model for supervised learning, especially classification, as components in the GMM can be associated with existing classes. Based on the GMM-OT problem, we propose a novel technique for calculating barycenters of GMMs. Based on this novel algorithm, we propose two new strategies for MSDA: GMM-WBT and GMM-DaDiL. We empirically evaluate our proposed methods on four benchmarks in image classification and fault diagnosis, showing that we improve over the prior art while being faster and involving fewer parameters.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# PreGSU-A 事前学習グラフ注意ネットワークに基づく自律走行のための一般化交通シーン理解モデル

PreGSU-A Generalized Traffic Scene Understanding Model for Autonomous Driving based on Pre-trained Graph Attention Network ( http://arxiv.org/abs/2404.10263v1 )

ライセンス: Link先を確認
Yuning Wang, Zhiyuan Liu, Haotian Lin, Junkai Jiang, Shaobing Xu, Jianqiang Wang, (参考訳) 交通要素間の相互作用の学習、抽出、表現として定義されたシーン理解は、ハイレベル自律運転(AD)に対する重要な課題の1つである。 現在のシーン理解手法は主に、軌道予測やリスクレベル評価などの1つの具体的な単一タスクに焦点を当てている。 特定のメトリクスでうまく機能するが、実際のトラフィックの複雑さや下流の需要の多様性に適応するには一般化能力が不十分である。 本研究では,グラフアテンションネットワークに基づく一般化された事前学習シーン理解モデルであるPreGSUを提案する。 機能エンジニアリングとサブグラフモジュールの後、すべての要素をノードとして埋め込み、動的重み付きグラフを形成する。 次に、4つのグラフ注意層を適用してエージェントとレーンの関係を学習する。 列車前段階では、理解モデルは仮想相互作用力(VIF)モデリングとマスケッド・ロード・モデリング(MRM)という2つの自己教師型タスクに基づいて訓練される。 人工電位場理論に基づいて、VIFモデリングにより、PreGSUはエージェント間相互作用をキャプチャし、MRMはエージェント間接続を抽出する。 微調整プロセスでは、事前訓練されたパラメータをロードして詳細な理解出力を導出する。 本研究では,都市シナリオにおける軌道予測と高速道路シナリオにおける意図認識という2つの下流タスクに対する検証実験を行い,その一般化能力と理解能力を検証する。 その結果,PreGSUはベースラインと比較して,両タスクの精度が向上し,様々なシーンやターゲットに一般化できる可能性が示唆された。 アブレーション研究はプレトレイン・タスク・デザインの有効性を示している。

Scene understanding, defined as learning, extraction, and representation of interactions among traffic elements, is one of the critical challenges toward high-level autonomous driving (AD). Current scene understanding methods mainly focus on one concrete single task, such as trajectory prediction and risk level evaluation. Although they perform well on specific metrics, the generalization ability is insufficient to adapt to the real traffic complexity and downstream demand diversity. In this study, we propose PreGSU, a generalized pre-trained scene understanding model based on graph attention network to learn the universal interaction and reasoning of traffic scenes to support various downstream tasks. After the feature engineering and sub-graph module, all elements are embedded as nodes to form a dynamic weighted graph. Then, four graph attention layers are applied to learn the relationships among agents and lanes. In the pre-train phase, the understanding model is trained on two self-supervised tasks: Virtual Interaction Force (VIF) modeling and Masked Road Modeling (MRM). Based on the artificial potential field theory, VIF modeling enables PreGSU to capture the agent-to-agent interactions while MRM extracts agent-to-road connections. In the fine-tuning process, the pre-trained parameters are loaded to derive detailed understanding outputs. We conduct validation experiments on two downstream tasks, i.e., trajectory prediction in urban scenario, and intention recognition in highway scenario, to verify the generalized ability and understanding ability. Results show that compared with the baselines, PreGSU achieves better accuracy on both tasks, indicating the potential to be generalized to various scenes and targets. Ablation study shows the effectiveness of pre-train task design.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# 共振型ハロスコープキャビティの低温測定システムの校正

Calibration of the Cryogenic Measurement System of a Resonant Haloscope Cavity ( http://arxiv.org/abs/2404.10264v1 )

ライセンス: Link先を確認
Dong He, Jie Fan, Xin Gao, Yu Gao, Nick Houston, Zhongqing Ji, Yirong Jin, Chuang Li, Jinmian Li, Tianjun Li, Shi-hang Liu, Jia-Shu Niu, Zhihui Peng, Liang Sun, Zheng Sun, Jia Wang, Puxian Wei, Lina Wu, Zhongchen Xiang, Qiaoli Yang, Chi Zhang, Wenxing Zhang, Xin Zhang, Dongning Zheng, Ruifeng Zheng, Jian-yong Zhou, (参考訳) 標準模型光子との可能な光ボソニック暗黒物質相互作用はマイクロ波共振器によって探索されている。 本稿では, 希釈冷凍機を用いて22mKの温度で運転される, 負荷品質係数$Q_l=10^4$の7.138GHzの銅キャビティの低温再生システムキャリブレーションを実演する。 本システムでは,4Kの極低温増幅器として高エレクトロモビリティトランジスタと,室温増幅器と信号パワー検出用スペクトル解析器を備える。 マイクロ波周波数系における単一光子源として超伝導2レベル系を用いて実験を行い, 総合的な95.6dB系のゲインと71.4dBの減衰をキャビティの入力チャネルで報告した。 測定システムの有効雑音温度は7.5Kである。

Possible light bosonic dark matter interactions with the Standard Model photon have been searched by microwave resonant cavities. In this paper, we demonstrate the cryogenic readout system calibration of a 7.138 GHz copper cavity with a loaded quality factor $Q_l=10^4$, operated at 22 mK temperature based on a dilution refrigerator. Our readout system consists of High Electron Mobility Transistors as cryogenic amplifiers at 4 K, plus room-temperature amplifiers and a spectrum analyzer for signal power detection. We test the system with a superconducting two-level system as a single-photon source in the microwave frequency regime and report an overall 95.6 dB system gain and -71.4 dB attenuation in the cavity's input channel. The effective noise temperature of the measurement system is 7.5 K.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# OneActor: クラスタ駆動誘導による一貫性キャラクタ生成

OneActor: Consistent Character Generation via Cluster-Conditioned Guidance ( http://arxiv.org/abs/2404.10267v1 )

ライセンス: Link先を確認
Jiahao Wang, Caixia Yan, Haonan Lin, Weizhan Zhang, (参考訳) テキストから画像への拡散モデルは、高品質な画像生成でアーティストに恩恵を与える。 しかし、その確率的な性質は、アーティストが同じキャラクターの一貫性のあるイメージを作成することを妨げている。 既存の手法はこの課題に取り組み、様々な方法で一貫性のあるコンテンツを生成する。 しかし、それらは外部データに依存するか、拡散モデルの高価なチューニングを必要とする。 この問題に対して、軽量だが複雑なガイダンスは機能するのに十分である、と論じる。 そこで我々は,一貫した生成の目的を定式化し,クラスタリングに基づくスコア関数を導出し,新しいパラダイムであるOneActorを提案する。 本研究では, 後方サンプルを組み込んだクラスタコンディショニングモデルを設計し, 軌道を目標クラスタへ誘導する。 ワンショットチューニングパイプラインで共有される過度に適合する課題を克服するため,チューニングを同時に強化し,推論を規制する補助的なコンポーネントを考案した。 この手法は、後に生成した画像の内容の多様性を著しく向上するために検証される。 包括的実験により,本手法は,キャラクタの整合性,プロンプトの整合性,画質の向上など,様々な基礎特性に優れることがわかった。 また,本手法はチューニングベースのベースラインよりも少なくとも4倍高速である。 さらに、最もよく知る限り、セマンティック空間が潜在空間線量と同じ補間性を持つことを最初に証明する。 この特性は、ファインジェネレーション制御のためのもう1つの有望なツールとして機能する。

Text-to-image diffusion models benefit artists with high-quality image generation. Yet its stochastic nature prevent artists from creating consistent images of the same character. Existing methods try to tackle this challenge and generate consistent content in various ways. However, they either depend on external data or require expensive tuning of the diffusion model. For this issue, we argue that a lightweight but intricate guidance is enough to function. Aiming at this, we lead the way to formalize the objective of consistent generation, derive a clustering-based score function and propose a novel paradigm, OneActor. We design a cluster-conditioned model which incorporates posterior samples to guide the denoising trajectories towards the target cluster. To overcome the overfitting challenge shared by one-shot tuning pipelines, we devise auxiliary components to simultaneously augment the tuning and regulate the inference. This technique is later verified to significantly enhance the content diversity of generated images. Comprehensive experiments show that our method outperforms a variety of baselines with satisfactory character consistency, superior prompt conformity as well as high image quality. And our method is at least 4 times faster than tuning-based baselines. Furthermore, to our best knowledge, we first prove that the semantic space has the same interpolation property as the latent space dose. This property can serve as another promising tool for fine generation control.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# ニューロシンボリックゴール要約とテキスト・ユニット・テキスト・ジェネレーションによる低リソースヘルスコーチング対話のモデル化

Modeling Low-Resource Health Coaching Dialogues via Neuro-Symbolic Goal Summarization and Text-Units-Text Generation ( http://arxiv.org/abs/2404.10268v1 )

ライセンス: Link先を確認
Yue Zhou, Barbara Di Eugenio, Brian Ziebart, Lisa Sharp, Bing Liu, Nikolaos Agadakos, (参考訳) 健康コーチングは、患者がパーソナライズされたライフスタイルに関連する目標を達成するのを助け、慢性的な状態を効果的に管理し、精神的な健康問題を緩和する。 高いパーソナライズと労働集約性のため、社会経済的地位の低い人には特に有益である。 本稿では,患者と会話し,身体活動のための特定の目標を作成・達成するテキスト単位・テキスト対話生成モデルと,目標の追跡を支援するための神経象徴的目標要約器を提案する。 我々のモデルは、事前定義されたスキーマとそれに対応するアノテーションを不要にしながら、過去の最先端よりも優れています。 また、従来の作業を拡張した新しいヘルスコーチングデータセットと、データ難易度に基づいて患者の不便な反応を測定するメトリクスを提案し、デプロイメント中にコーチの警告を発生させる。

Health coaching helps patients achieve personalized and lifestyle-related goals, effectively managing chronic conditions and alleviating mental health issues. It is particularly beneficial, however cost-prohibitive, for low-socioeconomic status populations due to its highly personalized and labor-intensive nature. In this paper, we propose a neuro-symbolic goal summarizer to support health coaches in keeping track of the goals and a text-units-text dialogue generation model that converses with patients and helps them create and accomplish specific goals for physical activities. Our models outperform previous state-of-the-art while eliminating the need for predefined schema and corresponding annotation. We also propose a new health coaching dataset extending previous work and a metric to measure the unconventionality of the patient's response based on data difficulty, facilitating potential coach alerts during deployment.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# AIアライメントのための社会的選択 - さまざまなヒューマンフィードバックによる対処

Social Choice for AI Alignment: Dealing with Diverse Human Feedback ( http://arxiv.org/abs/2404.10271v1 )

ライセンス: Link先を確認
Vincent Conitzer, Rachel Freedman, Jobst Heitzig, Wesley H. Holliday, Bob M. Jacobs, Nathan Lambert, Milan Mossé, Eric Pacuit, Stuart Russell, Hailey Schoelkopf, Emanuel Tewolde, William S. Zwicker, (参考訳) GPT-4のような基礎モデルは、安全でない行動や問題のある行動を避けるために微調整されているため、例えば、犯罪を犯したり人種差別的なテキストを作成したりするための要求に従わない。 人間のフィードバックから強化学習と呼ばれる微調整の1つのアプローチは、複数の出力に対する人間の表現された好みから学習する。 もうひとつのアプローチは、人間からの入力が高レベルの原則のリストであるコンスティチューションAIである。 しかし、人間からの潜在的な入力をどう扱えばいいのか? の好みに関する一貫性のあるデータにどのようにインプットを集約するか、あるいはモデル行動に関する集合的な選択にそれを使うのか? そこで本稿では,2023年12月にカリフォルニア州バークレーで開催されたAI倫理・安全のための社会選択ワークショップにおいて,社会選択の分野がこれらの課題に対処するための適切な位置にあることを論じ,今後の課題について論じる。

Foundation models such as GPT-4 are fine-tuned to avoid unsafe or otherwise problematic behavior, so that, for example, they refuse to comply with requests for help with committing crimes or with producing racist text. One approach to fine-tuning, called reinforcement learning from human feedback, learns from humans' expressed preferences over multiple outputs. Another approach is constitutional AI, in which the input from humans is a list of high-level principles. But how do we deal with potentially diverging input from humans? How can we aggregate the input into consistent data about ''collective'' preferences or otherwise use it to make collective choices about model behavior? In this paper, we argue that the field of social choice is well positioned to address these questions, and we discuss ways forward for this agenda, drawing on discussions in a recent workshop on Social Choice for AI Ethics and Safety held in Berkeley, CA, USA in December 2023.
翻訳日:2024-04-17 18:12:17 公開日:2024-04-16
# VDBグリッドと階層的レイトラバーサルを用いたOccupancy Grid-based NeRFレンダリングのプラグアンドプレイ高速化

Plug-and-Play Acceleration of Occupancy Grid-based NeRF Rendering using VDB Grid and Hierarchical Ray Traversal ( http://arxiv.org/abs/2404.10272v1 )

ライセンス: Link先を確認
Yoshio Kato, Shuhei Tarashima, (参考訳) Occupancy Grid(OG)のような透過率推定器は、生成した画像に大きく寄与する重要なサンプルを予測することにより、NeRF(Neural Radiance Field)のトレーニングとレンダリングを加速することができる。 しかし、OGは密接な二分格子の形で占有領域を管理し、同じ値のブロックが多数存在し、光線トレーシングにおけるボクセルの空さを冗長に検査する。 本研究では, 微調整を伴わずに, トレーニングOGにおけるレイトレーシングの効率を向上させるための2つの手法を紹介する。 まず,高密度グリッドをVDBグリッドに置き換え,空間冗長性を低減する。 第2に、階層型デジタル微分解析器(HDDA)を用いて、VDBグリッド内のボクセルを効率的に追跡する。 提案手法は,NeRF合成データセットを平均12%,NeRF合成データセットを平均4%高速化する。

Transmittance estimators such as Occupancy Grid (OG) can accelerate the training and rendering of Neural Radiance Field (NeRF) by predicting important samples that contributes much to the generated image. However, OG manages occupied regions in the form of the dense binary grid, in which there are many blocks with the same values that cause redundant examination of voxels' emptiness in ray-tracing. In our work, we introduce two techniques to improve the efficiency of ray-tracing in trained OG without fine-tuning. First, we replace the dense grids with VDB grids to reduce the spatial redundancy. Second, we use hierarchical digital differential analyzer (HDDA) to efficiently trace voxels in the VDB grids. Our experiments on NeRF-Synthetic and Mip-NeRF 360 datasets show that our proposed method successfully accelerates rendering NeRF-Synthetic dataset by 12% in average and Mip-NeRF 360 dataset by 4% in average, compared to a fast implementation of OG, NerfAcc, without losing the quality of rendered images.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# Ummasoを用いたスパークアテンション回帰ネットワークによる土壌肥大予測

Sparse Attention Regression Network Based Soil Fertility Prediction With Ummaso ( http://arxiv.org/abs/2404.10274v1 )

ライセンス: Link先を確認
R V Raghavendra Rao, U Srinivasulu Reddy, (参考訳) 不均衡な土壌栄養データセットの課題は、土壌の肥育率の正確な予測を著しく妨げている。 そこで本研究では,一様多様体近似と投影(UMAP)と最小絶対収縮・選択演算子(LASSO)を組み合わせた新しい手法を提案する。 主な目的は、不均一なデータ分布の影響を克服し、土壌肥育モデルの予測精度を改善することである。 導入されたモデルはスパースアテンションレグレッションを使用しており、不均衡なデータセットから関連する機能を効果的に取り入れている。 UMAPは最初、データ複雑さを減らし、隠れた構造と重要なパターンを明らかにするために使われる。 その後、LASSOは特徴を洗練し、モデルの解釈可能性を高める。 実験結果は、UMAPとLASSOハイブリッドアプローチの有効性を強調している。 提案モデルでは,土壌肥大度予測の精度を98%に向上し,土壌肥大度予測の精度を示す。 さらに、91.25%の精度を示し、肥料土壌のインスタンスを正確に識別する能力を示している。 リコール計量は90.90%であり、モデルが正のケースを効果的に捉える能力を強調している。

The challenge of imbalanced soil nutrient datasets significantly hampers accurate predictions of soil fertility. To tackle this, a new method is suggested in this research, combining Uniform Manifold Approximation and Projection (UMAP) with Least Absolute Shrinkage and Selection Operator (LASSO). The main aim is to counter the impact of uneven data distribution and improve soil fertility models' predictive precision. The model introduced uses Sparse Attention Regression, effectively incorporating pertinent features from the imbalanced dataset. UMAP is utilized initially to reduce data complexity, unveiling hidden structures and important patterns. Following this, LASSO is applied to refine features and enhance the model's interpretability. The experimental outcomes highlight the effectiveness of the UMAP and LASSO hybrid approach. The proposed model achieves outstanding performance metrics, reaching a predictive accuracy of 98%, demonstrating its capability in accurate soil fertility predictions. Additionally, it showcases a Precision of 91.25%, indicating its adeptness in identifying fertile soil instances accurately. The Recall metric stands at 90.90%, emphasizing the model's ability to capture true positive cases effectively.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# OptiGrad: 勾配に基づく学習によるより公平で効率的な価格弾力性最適化

OptiGrad: A Fair and more Efficient Price Elasticity Optimization via a Gradient Based Learning ( http://arxiv.org/abs/2404.10275v1 )

ライセンス: Link先を確認
Vincent Grari, Marcin Detyniecki, (参考訳) 本稿では,非生命保険市場における収益マージンの最適化を,勾配勾配に基づく手法を用いて新たなアプローチを提案する。 1)利益率の最大化 2【変換率の確保】 3) 人口比率(DP)などの公正基準を施行する。 線形および半定値プログラミングに大きく依存する従来の価格最適化は、利益性と公正性のバランスをとる上での課題に直面する。 これらの課題は、継続的なレート調整と公平性基準の導入を必要とする状況において特に顕著になる。 具体的には、新たなビジネス価格設定に広く使用される方法である間接レートブック最適化は、下流の個別に最適化された価格を推定するために、XGBoostやGLMs/GAMsのような予測モデルに依存している。 しかし、この戦略はシーケンシャルなエラーを起こしやすく、継続的なレートシナリオの最適化を効果的に管理するのに苦労する。 実際には、時間的アクチュエーターを節約するためには、分割間隔(例えば、[-20\%, +20\%]の[-20\%, +20\%]の範囲)で最適化を頻繁に選択する。 さらに、実現不可能なソリューションを回避するために、彼らはしばしば、最適以下の価格戦略につながる緩和された制約を使用する。 伝統的なモデルのリバースエンジニアリングの性質はフェアネスの実施を複雑にし、バイアスのある結果をもたらす可能性がある。 提案手法は,連続的なレート空間における直接最適化戦略と,逆予測モデルによる公平性を組み込むことによって,これらの課題に対処する。 このイノベーションは、シーケンシャルなエラーを減らし、従来のモデルに見られる複雑さを単純化するだけでなく、公正度対策を直接商用のプレミアム計算に統合する。 マージン性能の向上と公正性の強化を実証し、既存の価格戦略を進化させる上で重要な必要性を強調した。

This paper presents a novel approach to optimizing profit margins in non-life insurance markets through a gradient descent-based method, targeting three key objectives: 1) maximizing profit margins, 2) ensuring conversion rates, and 3) enforcing fairness criteria such as demographic parity (DP). Traditional pricing optimization, which heavily lean on linear and semi definite programming, encounter challenges in balancing profitability and fairness. These challenges become especially pronounced in situations that necessitate continuous rate adjustments and the incorporation of fairness criteria. Specifically, indirect Ratebook optimization, a widely-used method for new business price setting, relies on predictor models such as XGBoost or GLMs/GAMs to estimate on downstream individually optimized prices. However, this strategy is prone to sequential errors and struggles to effectively manage optimizations for continuous rate scenarios. In practice, to save time actuaries frequently opt for optimization within discrete intervals (e.g., range of [-20\%, +20\%] with fix increments) leading to approximate estimations. Moreover, to circumvent infeasible solutions they often use relaxed constraints leading to suboptimal pricing strategies. The reverse-engineered nature of traditional models complicates the enforcement of fairness and can lead to biased outcomes. Our method addresses these challenges by employing a direct optimization strategy in the continuous space of rates and by embedding fairness through an adversarial predictor model. This innovation not only reduces sequential errors and simplifies the complexities found in traditional models but also directly integrates fairness measures into the commercial premium calculation. We demonstrate improved margin performance and stronger enforcement of fairness highlighting the critical need to evolve existing pricing strategies.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# EucliDreamer:Depth-Conditioned Stable Diffusionを用いた3次元モデルのための高速かつ高品質なテクスチャ

EucliDreamer: Fast and High-Quality Texturing for 3D Models with Depth-Conditioned Stable Diffusion ( http://arxiv.org/abs/2404.10279v1 )

ライセンス: Link先を確認
Cindy Le, Congrui Hetang, Chendi Lin, Ang Cao, Yihui He, (参考訳) EucliDreamerは、テキストプロンプトとメッシュが与えられた3次元モデルのテクスチャを生成するための、シンプルで効果的な方法である。 テクスチャは3次元表面上の暗黙の関数としてパラメータ化され、スコア蒸留サンプリング(SDS)プロセスと微分レンダリングで最適化される。 高品質なテクスチャを生成するために,メッシュから描画した深度画像によって誘導される深度条件の安定拡散モデルを利用する。 我々はObjaverseの3Dモデルにアプローチを試行し、Text2Texのような既存のテクスチャよりも優れた品質を示すユーザスタディを行った。 さらに,本手法はDreamFusionの2倍の速度で収束する。 テキストプロンプトにより、多様な芸術スタイルのテクスチャが作成できる。 われわれは、Euclidreamerが3Dコンテンツ作成における労働集約的な段階を自動化するための実行可能なソリューションを提案できることを願っている。

We present EucliDreamer, a simple and effective method to generate textures for 3D models given text prompts and meshes. The texture is parametrized as an implicit function on the 3D surface, which is optimized with the Score Distillation Sampling (SDS) process and differentiable rendering. To generate high-quality textures, we leverage a depth-conditioned Stable Diffusion model guided by the depth image rendered from the mesh. We test our approach on 3D models in Objaverse and conducted a user study, which shows its superior quality compared to existing texturing methods like Text2Tex. In addition, our method converges 2 times faster than DreamFusion. Through text prompting, textures of diverse art styles can be produced. We hope Euclidreamer proides a viable solution to automate a labor-intensive stage in 3D content creation.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# 可変能動ラマンゲイン媒体を用いた効率的な回折制御

Efficient diffraction control using a tunable active-Raman gain medium ( http://arxiv.org/abs/2404.10280v1 )

ライセンス: Link先を確認
Sandeep Sharma, (参考訳) 制御可能なコヒーレントラマンプロセスを用いて、N型原子ルビジウム蒸気中の全光波長可変かつ損失のない導波路を新たに生成する手法を提案する。 我々はガウスのラマン場とラゲール=ガウスの制御場を用いて、原子媒体内に高コントラスト可変導波路のような特徴を印字する。 このような導波路は、回折や吸収を伴わずに、弱いプローブビームの任意のモードを複数のレイリー長に導くことができることを数値的に示す。 光導波路をベースとした全光導波路方式の結果は、ロスレス画像処理、高コントラストバイオメディカルイメージング、画像メトロジーに潜在的に応用できる可能性がある。

We present a new scheme to create all-optical tunable and lossless waveguide using a controllable coherent Raman process in an atomic rubidium vapor in N-type configuration. We employ a Gaussian Raman field and a Laguerre-Gaussian control field to imprint a high-contrast tunable waveguide-like feature inside the atomic medium. We numerically demonstrate that such a waveguide is able to guide arbitrary modes of a weak probe beam to several Rayleigh length without diffraction and absorption. Our results on all-optical waveguide based scheme may have potential application in lossless image processing, high contrast biomedical imaging and image metrology.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# 教育におけるAI支援書記:生態系のリスクと緩和

AI-Assisted Writing in Education: Ecosystem Risks and Mitigations ( http://arxiv.org/abs/2404.10281v1 )

ライセンス: Link先を確認
Antonette Shibani, Simon Buckingham Shum, (参考訳) 技術進歩の能力に関する興奮が、新しいAIベースの筆記アシスタントを生み出している一方で、そのエコシステムは、教育実践においてどのように採用されるかにおいて重要な役割を担っている。 本稿では,重要な生態学的側面を考察する。 大学における9年間にわたる筆記フィードバックツールの実践と統合された広範な研究から洞察を得ており、これらが見過ごされた場合の潜在的なリスクを強調している。 実践的な影響とイノベーションのバランスをとるために、より広い文脈でより整合した教育書記支援ツールの設計を通知する。

While the excitement around the capabilities of technological advancements is giving rise to new AI-based writing assistants, the overarching ecosystem plays a crucial role in how they are adopted in educational practice. In this paper, we point to key ecological aspects for consideration. We draw insights from extensive research integrated with practice on a writing feedback tool over 9 years at a university, and we highlight potential risks when these are overlooked. It informs the design of educational writing support tools to be better aligned within broader contexts to balance innovation with practical impact.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# Tripod: 絡み合った表現学習のための3つの相補的帰納的ビアーゼ

Tripod: Three Complementary Inductive Biases for Disentangled Representation Learning ( http://arxiv.org/abs/2404.10282v1 )

ライセンス: Link先を確認
Kyle Hsu, Jubayer Ibn Hamid, Kaylee Burns, Chelsea Finn, Jiajun Wu, (参考訳) 帰納バイアスは、未特定解集合を狭めるために、非絡み合い表現学習において重要である。 本研究では、量子化によるグリッドのような潜伏空間へのデータ圧縮、潜伏者間の集団独立、他の潜伏者によるデータ生成の決定方法に対する潜伏者の機能的影響の最小化という、3つの選択的帰納バイアスを持つニューラルネットワークオートエンコーダを提案する。 原則として、これらの帰納バイアスは深い相補的であり、最も直接的に潜在空間、エンコーダ、デコーダの特性を規定する。 しかし、実際には、これらの帰納バイアスをインスタンス化する既存の技術を組み合わせることは、大きな利益をもたらすことに失敗する。 そこで本研究では,学習問題を単純化する3つの手法を適応し,不変性を安定化した鍵正規化項を付与し,インセンティブをクアシュデジェネレーションする手法を提案する。 結果のモデルであるTripodは、4つのイメージアンタングルメントベンチマークのスイートで最先端の結果を得る。 また、Tripodはその単純さによって大幅に改善され、最高のパフォーマンスには3つの"レッグ"がすべて必要であることも確認しています。

Inductive biases are crucial in disentangled representation learning for narrowing down an underspecified solution set. In this work, we consider endowing a neural network autoencoder with three select inductive biases from the literature: data compression into a grid-like latent space via quantization, collective independence amongst latents, and minimal functional influence of any latent on how other latents determine data generation. In principle, these inductive biases are deeply complementary: they most directly specify properties of the latent space, encoder, and decoder, respectively. In practice, however, naively combining existing techniques instantiating these inductive biases fails to yield significant benefits. To address this, we propose adaptations to the three techniques that simplify the learning problem, equip key regularization terms with stabilizing invariances, and quash degenerate incentives. The resulting model, Tripod, achieves state-of-the-art results on a suite of four image disentanglement benchmarks. We also verify that Tripod significantly improves upon its naive incarnation and that all three of its "legs" are necessary for best performance.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# 開量子系における散逸や熱化をモデル化するための新しいスキーム

A novel scheme for modelling dissipation or thermalization in open quantum systems ( http://arxiv.org/abs/2404.10286v1 )

ライセンス: Link先を確認
Fardin Kheirandish, Elmira Bolandhemmat, Narges Cheraghpour, Ronak Moradi, Servieh Ahmadian, (参考訳) 本稿では,オープン量子系における散逸・熱化の研究手法を紹介する。 この方法では、量子系は自分自身のコピーまたは有限個のボゾン作用素によって記述される他のシステムと線形に結合される。 時間依存結合関数は、このスキームにおいて基本的な役割を果たす。 本手法の有効性と意義を実証するため,いくつかの重要かつユビキタスなオープン量子システムについて検討する。 まず, 逆温度$\beta$における熱浴の存在下での量子発振器について検討し, 還元密度行列, フシミ分布関数, 量子熱分布関数を正確に求める。 結果は時間依存結合関数の適切な選択によって既存の文献と一致している。 複数の熱浴と相互作用するシステムに対する本手法の一般化性を説明するため, 量子発振器と2つの熱浴との相互作用を異なる温度で検討し, 相容れない結果を得た。 その後,エネルギーあるいは相散逸を伴う2レベル原子を解析し,新しい手法を一貫して用いた自然放出と純脱落過程を導出する。 最後に、散逸性2レベル原子中のマルコフ過程と非マルコフ過程を調査し、これらの過程が結合強度$g_0$に依存し、非マルコフ特性は$g_0$の増加とともに増加することを観察する。

In this letter, we introduce a novel method for investigating dissipation or thermalization in an open quantum system. In this method, the quantum system is coupled linearly with a copy of itself or with another system described by a finite number of bosonic operators. The time-dependent coupling functions play a fundamental role in this scheme. To demonstrate the efficacy and significance of this method, we apply it to examine several important and ubiquitous open quantum systems. Firstly, we investigate a quantum oscillator in the presence of a thermal bath at the inverse temperature $\beta$, obtaining the reduced density matrix, the Husimi distribution function, and the quantum heat distribution function accurately. The results are consistent with existing literature by appropriate choices for the time-dependent coupling function. To illustrate the generalizability of this method to systems interacting with multiple thermal baths, we study the interaction of a quantum oscillator with two thermal baths at different temperatures and obtain compatible results. Subsequently, we analyze a two-level atom with energy or phase dissipation and derive the spontaneous emission and the pure dephasing processes consistently using the new method. Finally, we investigate Markovian and non-Markovian processes in a dissipative two-level atom and observe that these processes depend on the coupling strength $g_0$, and the non-Markovian property increases with an increase in $g_0$.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# AI対応書記における著者の足跡

The Dearth of the Author in AI-Supported Writing ( http://arxiv.org/abs/2404.10289v1 )

ライセンス: Link先を確認
Max Kreminski, (参考訳) この条件は、AIベースのクリエイティビティ支援ツールが、ユーザーが多くの創造的な決定を下すことなく大量のテキストを作成できるようにし、結果として表現力に乏しい出力をもたらす。 著者の足跡は、AIベースの書き込み支援ツールに関して繰り返し発生する困難と不安を説明するのに役立ちますが、AIベースのCSTに対する野心的な新しい目標も示唆している、と私たちは主張しています。

We diagnose and briefly discuss the dearth of the author: a condition that arises when AI-based creativity support tools for writing allow users to produce large amounts of text without making a commensurate number of creative decisions, resulting in output that is sparse in expressive intent. We argue that the dearth of the author helps to explain a number of recurring difficulties and anxieties around AI-based writing support tools, but that it also suggests an ambitious new goal for AI-based CSTs.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# NeuroMorphix:脳MRI非対称性特異的特徴構築手法

NeuroMorphix: A Novel Brain MRI Asymmetry-specific Feature Construction Approach For Seizure Recurrence Prediction ( http://arxiv.org/abs/2404.10290v1 )

ライセンス: Link先を確認
Soumen Ghosh, Viktor Vegh, Shahrzad Moinian, Hamed Moradi, Alice-Ann Sullivan, John Phamnguyen, David Reutens, (参考訳) 静注再発は初発性発作後の重要な問題であり,薬物療法なしでは40~50%の症例で2年以内に発症する。 現在治療の決定は、不正確な発作再発リスクの予測者に依存しており、一部の患者では不必要で有害な治療が行われ、他の患者では予防可能な発作が発生する可能性がある。 脳病変と発作再発の関係から,機械学習と臨床3T脳MRIを用いた再発予測ツールを開発した。 MRI脳解剖に基づく機能構築手法であるNeuroMorphixを開発した。 7つのNeuroMorphixの特徴は、それぞれの大脳半球の対応する領域間の絶対的または相対的な差を測定する。 FreeSurferは、脳の領域を分割し、形態計測パラメーターの値を生成するのに使われた(皮質の各領域は8、皮質下領域は5)。 パラメーターは全脳神経筋の特徴にマッピングされ、被験者1人あたり91の特徴が得られた。 発作再発群と非再発群に分類した第1発作患者コホート(n = 169)に特徴が認められた。 最新の分類アルゴリズムは、発作再発を予測するためにNeuroMorphix機能を使用して訓練され、テストされた。 ROC曲線88~93%,精度83~89%,F1スコア83~90%で発作再発の予測に優れた成績を示した。 高位の特徴はてんかんに関連することが知られている構造変化と一致している。 本研究は,脳疾患における臨床的意思決定を支援するための,データ駆動型アプローチの可能性を強調した。

Seizure recurrence is an important concern after an initial unprovoked seizure; without drug treatment, it occurs within 2 years in 40-50% of cases. The decision to treat currently relies on predictors of seizure recurrence risk that are inaccurate, resulting in unnecessary, possibly harmful, treatment in some patients and potentially preventable seizures in others. Because of the link between brain lesions and seizure recurrence, we developed a recurrence prediction tool using machine learning and clinical 3T brain MRI. We developed NeuroMorphix, a feature construction approach based on MRI brain anatomy. Each of seven NeuroMorphix features measures the absolute or relative difference between corresponding regions in each cerebral hemisphere. FreeSurfer was used to segment brain regions and to generate values for morphometric parameters (8 for each cortical region and 5 for each subcortical region). The parameters were then mapped to whole brain NeuroMorphix features, yielding a total of 91 features per subject. Features were generated for a first seizure patient cohort (n = 169) categorised into seizure recurrence and non-recurrence subgroups. State-of-the-art classification algorithms were trained and tested using NeuroMorphix features to predict seizure recurrence. Classification models using the top 5 features, ranked by sequential forward selection, demonstrated excellent performance in predicting seizure recurrence, with area under the ROC curve of 88-93%, accuracy of 83-89%, and F1 score of 83-90%. Highly ranked features aligned with structural alterations known to be associated with epilepsy. This study highlights the potential for targeted, data-driven approaches to aid clinical decision-making in brain disorders.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# データデルージュからデータキュレーションへ:効率的なテキストベースの人物検索のためのフィルタリングWoRAパラダイム

From Data Deluge to Data Curation: A Filtering-WoRA Paradigm for Efficient Text-based Person Search ( http://arxiv.org/abs/2404.10292v1 )

ライセンス: Link先を確認
Jintao Sun, Zhedong Zheng, Gangyi Ding, (参考訳) テキストベースの人物検索では、プライバシ保護や手作業によるアノテーションの面倒な作業に対する懸念に対処するため、データ生成が主流となっている。 合成データの数は理論上無限であるが、科学的なコンウンドラムは、生成したデータの量がその後のモデルトレーニングに最適な燃料を供給していることを主張している。 これらの構築されたデータセットのデータのサブセットのみが決定的な役割を果たすことを観察する。 そこで我々は,この重要なデータサブセットを識別するためのフィルタリングアルゴリズムと,光微調整のためのWoRA(Weighted Low-Rank Adaptation)学習戦略を含む新しいフィルタ-WoRAパラダイムを提案する。 フィルタアルゴリズムは、粗いマッチング合成ペアを多数取り除くために、モダリティの相互関係に基づいている。 データ数が減少するにつれて、モデル全体を微調整する必要はありません。 そこで本研究では,モデルパラメータの最小部分を効率的に更新するWoRA学習戦略を提案する。 WoRAは学習プロセスを合理化し、少ないが強力なデータインスタンスから知識を抽出する効率を高める。 大規模な実験により事前学習の有効性が検証され,本モデルでは,実世界のベンチマークにおいて,高精度かつ効率的な検索性能が得られた。 特に、CUHK-PEDESデータセットでは、67.02%の競合的なmAPを達成し、モデルのトレーニング時間を19.82%短縮しました。

In text-based person search endeavors, data generation has emerged as a prevailing practice, addressing concerns over privacy preservation and the arduous task of manual annotation. Although the number of synthesized data can be infinite in theory, the scientific conundrum persists that how much generated data optimally fuels subsequent model training. We observe that only a subset of the data in these constructed datasets plays a decisive role. Therefore, we introduce a new Filtering-WoRA paradigm, which contains a filtering algorithm to identify this crucial data subset and WoRA (Weighted Low-Rank Adaptation) learning strategy for light fine-tuning. The filtering algorithm is based on the cross-modality relevance to remove the lots of coarse matching synthesis pairs. As the number of data decreases, we do not need to fine-tune the entire model. Therefore, we propose a WoRA learning strategy to efficiently update a minimal portion of model parameters. WoRA streamlines the learning process, enabling heightened efficiency in extracting knowledge from fewer, yet potent, data instances. Extensive experimentation validates the efficacy of pretraining, where our model achieves advanced and efficient retrieval performance on challenging real-world benchmarks. Notably, on the CUHK-PEDES dataset, we have achieved a competitive mAP of 67.02% while reducing model training time by 19.82%.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# ニューラルネットワークの補間によるエンジニアリングソフトウェア2.0:トレーニング、問題解決、校正の統合

Engineering software 2.0 by interpolating neural networks: unifying training, solving, and calibration ( http://arxiv.org/abs/2404.10296v1 )

ライセンス: Link先を確認
Chanwook Park, Sourav Saha, Jiachen Guo, Xiaoyu Xie, Satyajit Mojumder, Miguel A. Bessa, Dong Qian, Wei Chen, Gregory J. Wagner, Jian Cao, Wing Kam Liu, (参考訳) 人工知能(AI)とニューラルネットワーク理論の進化は、ソフトウェアプログラムの方法に革命をもたらし、ハードコードされた一連のコードから巨大なニューラルネットワークへと移行した。 しかし、このエンジニアリングソフトウェアの移行は、データの不足、データの多要素性、モデルの精度の低下、推論の遅いといった問題に直面している。 本稿では、補間理論とテンソル分解に基づく新しいネットワーク、補間ニューラルネットワーク(INN)を提案する。 コンピュータ科学における一般的な概念であるトレーニングデータを補間する代わりに、INNは座標と値が訓練可能な物理空間の補間点を補間する。 また、補間点がトレーニングデータの範囲外にある場合、補間関数がより大きなサポートドメインを持つ場合、外挿することもできる。 INNは、トレーニング可能なパラメータを桁違いに少なくし、高速なトレーニング、メモリフットプリントを小さくし、フィードフォワードニューラルネットワーク(FFNN)や物理インフォームドニューラルネットワーク(PINN)と比較してモデル精度を高くする。 INNは、空間、時間、パラメータ、初期/境界条件のさまざまな領域にまたがる統一ニューラルネットワークであるEngineering Software 2.0の先駆けとなる。 これは以前、指数関数的にトレーニング可能なパラメータの数が増加し、1兆を超えるChatGPTのパラメータサイズを超えたため、計算的に禁じられていた。 INNは、テンソル分解とテンソル積を適応可能なネットワークアーキテクチャで活用することで、この問題に対処する。

The evolution of artificial intelligence (AI) and neural network theories has revolutionized the way software is programmed, shifting from a hard-coded series of codes to a vast neural network. However, this transition in engineering software has faced challenges such as data scarcity, multi-modality of data, low model accuracy, and slow inference. Here, we propose a new network based on interpolation theories and tensor decomposition, the interpolating neural network (INN). Instead of interpolating training data, a common notion in computer science, INN interpolates interpolation points in the physical space whose coordinates and values are trainable. It can also extrapolate if the interpolation points reside outside of the range of training data and the interpolation functions have a larger support domain. INN features orders of magnitude fewer trainable parameters, faster training, a smaller memory footprint, and higher model accuracy compared to feed-forward neural networks (FFNN) or physics-informed neural networks (PINN). INN is poised to usher in Engineering Software 2.0, a unified neural network that spans various domains of space, time, parameters, and initial/boundary conditions. This has previously been computationally prohibitive due to the exponentially growing number of trainable parameters, easily exceeding the parameter size of ChatGPT, which is over 1 trillion. INN addresses this challenge by leveraging tensor decomposition and tensor product, with adaptable network architecture.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# 時間的文書履歴から将来の言語モデリング

Future Language Modeling from Temporal Document History ( http://arxiv.org/abs/2404.10297v1 )

ライセンス: Link先を確認
Changmao Li, Jeffrey Flanigan, (参考訳) 未来を予測することは、人間の活動の多くの側面において大きな関心事である。 企業は将来のトレンドに興味を持ち、トレーダーは将来の株価に興味を持ち、企業は将来の技術的ブレークスルーに非常に関心を持っている。 天気や株価、製品需要など、将来の数値データを自動で予測するシステムは数多く存在するが、テキストデータを自動的に予測する作業は比較的少ない。 人間は、私たちの消費にとって自然なフォーマットであるため、テキストデータ予測に興味を持ち、専門家は定期的にテキスト形式で予測を行う(Christensen et al , 2004; Tetlock & Gardner, 2015; Frick, 2015)。 しかし、機械学習や自然言語処理のコミュニティでは、この問題の形式化は比較的少ない。 このギャップに対処するために,テキストの時間的履歴に基づく将来的なテキストの確率的モデリングという,将来の言語モデリングの課題を紹介する。 私たちの知識では、私たちの仕事は、この方法で未来を予測するタスクを形式化する最初の作業です。 我々は、強力な非時間的言語モデルベースラインを改善する将来の言語モデルを構築することが可能であることを示し、この重要かつ広く適用可能な問題に取り組むための扉を開く。

Predicting the future is of great interest across many aspects of human activity. Businesses are interested in future trends, traders are interested in future stock prices, and companies are highly interested in future technological breakthroughs. While there are many automated systems for predicting future numerical data, such as weather, stock prices, and demand for products, there is relatively little work in automatically predicting textual data. Humans are interested in textual data predictions because it is a natural format for our consumption, and experts routinely make predictions in a textual format (Christensen et al., 2004; Tetlock & Gardner, 2015; Frick, 2015). However, there has been relatively little formalization of this general problem in the machine learning or natural language processing communities. To address this gap, we introduce the task of future language modeling: probabilistic modeling of texts in the future based on a temporal history of texts. To our knowledge, our work is the first work to formalize the task of predicting the future in this way. We show that it is indeed possible to build future language models that improve upon strong non-temporal language model baselines, opening the door to working on this important, and widely applicable problem.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# 睡眠評価と睡眠個人性分析の精度向上のためのクラスタリングとデータ拡張

Clustering and Data Augmentation to Improve Accuracy of Sleep Assessment and Sleep Individuality Analysis ( http://arxiv.org/abs/2404.10299v1 )

ライセンス: Link先を確認
Shintaro Tamai, Masayuki Numao, Ken-ichi Fukui, (参考訳) 近年、健康意識の高まりにより、個人が自宅で睡眠をモニターする新しい方法が生まれている。 睡眠音の利用は、スマートウォッチのような従来の方法よりも利点があり、非侵襲的であり、様々な生理的活動を検出することができる。 本研究の目的は,就寝時の頻繁な動きによる睡眠不足など,エビデンスに基づく評価を提供する機械学習ベースの睡眠評価モデルを構築することである。 睡眠音イベントの抽出,VAEを用いた潜時表現の導出,GMMによるクラスタリング,主観的睡眠評価のためのLSTM訓練は94.8%の精度で睡眠満足度を識別した。 さらに、TimeSHAPは、衝撃的な音のイベントタイプと、異なる個人に対するタイミングの違いを明らかにした。

Recently, growing health awareness, novel methods allow individuals to monitor sleep at home. Utilizing sleep sounds offers advantages over conventional methods like smartwatches, being non-intrusive, and capable of detecting various physiological activities. This study aims to construct a machine learning-based sleep assessment model providing evidence-based assessments, such as poor sleep due to frequent movement during sleep onset. Extracting sleep sound events, deriving latent representations using VAE, clustering with GMM, and training LSTM for subjective sleep assessment achieved a high accuracy of 94.8% in distinguishing sleep satisfaction. Moreover, TimeSHAP revealed differences in impactful sound event types and timings for different individuals.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# 潜時拡散による長周期音楽生成

Long-form music generation with latent diffusion ( http://arxiv.org/abs/2404.10301v1 )

ライセンス: Link先を確認
Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons, (参考訳) 音楽生成モデルは近年大きな進歩を遂げているが、完全長の楽曲をコヒーレントな音楽構造で制作するには至っていない。 時間長の文脈で生成モデルを訓練することにより,最大4m45秒の長音を生成可能であることを示す。 本モデルは,低サンプリング連続潜時表現(21.5Hz)で動作する拡散変圧器からなる。 音質と即時アライメントの指標に基づいて最先端の世代を取得し、主観的なテストにより、コヒーレントな構造を持つフル長の音楽を生成することが明らかになった。

Audio-based generative models for music have seen great strides recently, but so far have not managed to produce full-length music tracks with coherent musical structure. We show that by training a generative model on long temporal contexts it is possible to produce long-form music of up to 4m45s. Our model consists of a diffusion-transformer operating on a highly downsampled continuous latent representation (latent rate of 21.5Hz). It obtains state-of-the-art generations according to metrics on audio quality and prompt alignment, and subjective tests reveal that it produces full-length music with coherent structure.
翻訳日:2024-04-17 18:02:32 公開日:2024-04-16
# トリッキーバグ検出のためのLCM駆動テストケース生成

LLM-Powered Test Case Generation for Detecting Tricky Bugs ( http://arxiv.org/abs/2404.10304v1 )

ライセンス: Link先を確認
Kaibo Liu, Yiyang Liu, Zhenpeng Chen, Jie M. Zhang, Yudong Han, Yun Ma, Ge Li, Gang Huang, (参考訳) 従来の自動テスト生成ツールは、テストのオーラクルとトリッキーなバグ修正テストインプットを生成するのに苦労しています。 大規模言語モデル(LLM)は直接プログラムの入力やオラクルを生成するよう促すことができるが、複雑なシナリオではテストの精度は非常に低い(我々の実験ではわずか6.3%)。 このギャップを埋めるために,本論文では,LSMと差分テストを組み合わせて,障害検出テストの入力を生成するAIDと,少なくとも正しいプログラムをターゲットとしたオーラクル(既存のすべてのテストに合格したプログラム)を提案する。 特に AID は LLM が生成するプログラム変種に対して多様な出力を出力するテスト入力を選択し、その出力に基づいてテストオラクルを構成する。 我々は,TickyBugsとEvalPlusの2つの大規模データセット上でAIDを評価し,それを最先端の3つのベースラインと比較した。 その結果,AIDのリコール,精度,F1スコアは,それぞれ1.80x,2.65x,1.66xに優れていた。

Conventional automated test generation tools struggle to generate test oracles and tricky bug-revealing test inputs. Large Language Models (LLMs) can be prompted to produce test inputs and oracles for a program directly, but the precision of the tests can be very low for complex scenarios (only 6.3% based on our experiments). To fill this gap, this paper proposes AID, which combines LLMs with differential testing to generate fault-revealing test inputs and oracles targeting plausibly correct programs (i.e., programs that have passed all the existing tests). In particular, AID selects test inputs that yield diverse outputs on a set of program variants generated by LLMs, then constructs the test oracle based on the outputs. We evaluate AID on two large-scale datasets with tricky bugs: TrickyBugs and EvalPlus, and compare it with three state-of-the-art baselines. The evaluation results show that the recall, precision, and F1 score of AID outperform the state-of-the-art by up to 1.80x, 2.65x, and 1.66x, respectively.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# TC-OCR:表の構造と内容の効率的な検出・認識のためのテーブルクラフトOCR

TC-OCR: TableCraft OCR for Efficient Detection & Recognition of Table Structure & Content ( http://arxiv.org/abs/2404.10305v1 )

ライセンス: Link先を確認
Avinash Anand, Raj Jaiswal, Pijush Bhuyan, Mohit Gupta, Siddhesh Bangar, Md. Modassir Imam, Rajiv Ratn Shah, Shin'ichi Satoh, (参考訳) 文書画像における表データの自動認識は,表形式や複雑な構造が多様であることから,大きな課題となっている。 テーブルは貴重なコンテンツ表現を提供し、検索エンジンや知識グラフといった様々なシステムの予測能力を高める。 テーブル検出(TD)とテーブル構造認識(TSR)という2つの主要な問題に対処することは、伝統的に独立してアプローチされてきた。 本研究では,DeTR,CascadeTabNet,PP OCR v2といったディープラーニングモデルを統合し,総合的な画像ベースのテーブル認識を実現するエンドツーエンドパイプラインを提案する。 この統合アプローチは、テーブルスタイル、複雑な構造、画像歪みを効果的に処理し、テーブルトランスフォーマーのような既存の手法と比較して精度と効率を向上させる。 本システムでは、テーブル構造を保存し、文書画像から表データを正確に抽出し、テーブル検出(TD)、テーブル構造認識(TSR)、テーブルコンテンツ認識(TCR)を実現する。 複数のモデルの統合は、テーブル認識の複雑さに対処し、我々のアプローチは、画像ベースのテーブル理解、データ抽出、情報検索アプリケーションのための有望なソリューションとなる。 提案手法は0.96のIOUと78%のOCR精度を実現し,従来のテーブルトランスフォーマーに比べてOCR精度が約25%向上したことを示す。

The automatic recognition of tabular data in document images presents a significant challenge due to the diverse range of table styles and complex structures. Tables offer valuable content representation, enhancing the predictive capabilities of various systems such as search engines and Knowledge Graphs. Addressing the two main problems, namely table detection (TD) and table structure recognition (TSR), has traditionally been approached independently. In this research, we propose an end-to-end pipeline that integrates deep learning models, including DETR, CascadeTabNet, and PP OCR v2, to achieve comprehensive image-based table recognition. This integrated approach effectively handles diverse table styles, complex structures, and image distortions, resulting in improved accuracy and efficiency compared to existing methods like Table Transformers. Our system achieves simultaneous table detection (TD), table structure recognition (TSR), and table content recognition (TCR), preserving table structures and accurately extracting tabular data from document images. The integration of multiple models addresses the intricacies of table recognition, making our approach a promising solution for image-based table understanding, data extraction, and information retrieval applications. Our proposed approach achieves an IOU of 0.96 and an OCR Accuracy of 78%, showcasing a remarkable improvement of approximately 25% in the OCR Accuracy compared to the previous Table Transformer approach.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# スペシャリティとVersatilityのバランスをとる - 教師付き微調整大言語モデルのための粗いフレームワーク

Balancing Speciality and Versatility: a Coarse to Fine Framework for Supervised Fine-tuning Large Language Model ( http://arxiv.org/abs/2404.10306v1 )

ライセンス: Link先を確認
Hengyuan Zhang, Yanru Wu, Dawei Li, Zacc Yang, Rui Zhao, Yong Jiang, Fei Tan, (参考訳) Aligned Large Language Models (LLMs) は、様々な現実世界のタスクを処理できる優れた汎用性を示す。 一方、アライメントLDMは特殊性を示し、特定の用途に優れると予想されている。 しかし、専門性を得るための一般的な慣習である余分なデータによる微調整は、しばしば以前に獲得された多目的性の破滅的な忘れ(CF)を招き、様々なタスクにおけるモデルの性能を阻害する。 この課題に対応するために,我々は,特殊性と多目的性のバランスを打つために,粗粒度フレームワークであるCoFiTuneを提案する。 粗粒度レベルでは、経験的木探索アルゴリズムを用いて、特殊性に不可欠な特定のモジュールをピンポイントし更新し、他のパラメータを凍結し続ける。 専門性と汎用性の両方の総合評価において、CoFiTuneは、さまざまなタスクとモデルスケールのベースラインメソッドを一貫して上回ります。 フルパラメータのSFTと比較すると、CoFiTuneは約14%の汎用性向上と13Bモデルでの限界特殊性損失をもたらす。 最後に,LLMにおける情報転送プロセスの投機的考察を行い,提案手法の有効性について解説する。 コードはhttps://github.com/rattlesnakey/CoFiTune.comで入手できる。

Aligned Large Language Models (LLMs) showcase remarkable versatility, capable of handling diverse real-world tasks. Meanwhile, aligned LLMs are also expected to exhibit speciality, excelling in specific applications. However, fine-tuning with extra data, a common practice to gain speciality, often leads to catastrophic forgetting (CF) of previously acquired versatility, hindering the model's performance across diverse tasks. In response to this challenge, we propose CoFiTune, a coarse to fine framework in an attempt to strike the balance between speciality and versatility. At the coarse-grained level, an empirical tree-search algorithm is utilized to pinpoint and update specific modules that are crucial for speciality, while keeping other parameters frozen; at the fine-grained level, a soft-masking mechanism regulates the update to the LLMs, mitigating the CF issue without harming speciality. In an overall evaluation of both speciality and versatility, CoFiTune consistently outperforms baseline methods across diverse tasks and model scales. Compared to the full-parameter SFT, CoFiTune leads to about 14% versatility improvement and marginal speciality loss on a 13B model. Lastly, based on further analysis, we provide a speculative insight into the information forwarding process in LLMs, which helps explain the effectiveness of the proposed method. The code is available at https://github.com/rattlesnakey/CoFiTune.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# リモートセンシング領域におけるFew-Shot Semantic Segmentationのための学習可能なプロンプト

Learnable Prompt for Few-Shot Semantic Segmentation in Remote Sensing Domain ( http://arxiv.org/abs/2404.10307v1 )

ライセンス: Link先を確認
Steve Andreas Immanuel, Hagai Raja Sinulingga, (参考訳) Few-shotセグメンテーション(Few-shot segmentation)は、いくつかのアノテーション付きの例だけを与えられた画像内でオブジェクトや新しいクラスの領域を分割するタスクである。 一般化された設定では、タスクはベースと新しいクラスの両方をセグメント化する。 主な課題は、新しいクラスの追加がベースクラスのパフォーマンスを傷つけないようにモデルをトレーニングする方法である。 この問題を緩和するために、ベースモデルとしてSegGPTを使用し、ベースクラスでそれをトレーニングします。 そして、学習可能なプロンプトを別々に使い、新しいクラスの予測を処理します。 通常リモートセンシング領域に存在する様々なオブジェクトサイズを扱うために、パッチベースの予測を行う。 パッチ境界に沿った不連続性に対処するため,パッチ・アンド・スティッチ手法を提案する。 また,画像埋め込みによる画像類似性探索を用いて,画像選択と新しいクラスフィルタリングを行い,偽陽性予測の低減を図る。 提案手法は,簡単な微調整のSegGPTの重み付きmIoUを15.96から35.08に向上させる。

Few-shot segmentation is a task to segment objects or regions of novel classes within an image given only a few annotated examples. In the generalized setting, the task extends to segment both the base and the novel classes. The main challenge is how to train the model such that the addition of novel classes does not hurt the base classes performance, also known as catastrophic forgetting. To mitigate this issue, we use SegGPT as our base model and train it on the base classes. Then, we use separate learnable prompts to handle predictions for each novel class. To handle various object sizes which typically present in remote sensing domain, we perform patch-based prediction. To address the discontinuities along patch boundaries, we propose a patch-and-stitch technique by re-framing the problem as an image inpainting task. During inference, we also utilize image similarity search over image embeddings for prompt selection and novel class filtering to reduce false positive predictions. Based on our experiments, our proposed method boosts the weighted mIoU of a simple fine-tuned SegGPT from 15.96 to 35.08 on the validation set of few-shot OpenEarthMap dataset given in the challenge.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# 階層型コンテキストマージ: 事前学習されたLLMのためのより長いコンテキスト理解

Hierarchical Context Merging: Better Long Context Understanding for Pre-trained LLMs ( http://arxiv.org/abs/2404.10308v1 )

ライセンス: Link先を確認
Woomin Song, Seunghyuk Oh, Sangwoo Mo, Jaehyung Kim, Sukmin Yun, Jung-Woo Ha, Jinwoo Shin, (参考訳) 大規模言語モデル(LLM)は、様々な自然言語処理タスクにおいて顕著な性能を示している。 しかし、それらが直面する主な制約はコンテキスト制限、すなわち処理できるトークンの最大数である。 以前の研究では、制約を緩和するために、アーキテクチャの変更や位置エンコーディングの変更について検討されてきたが、それらはしばしば高価なトレーニングを必要としたり、自己注意の計算的な要求に対処しなかった。 本稿では,HOMER(Hierarchical cOntext MERging)を提案する。 HOMERは、長いインプットを管理可能なチャンクに分割する、分別・対数アルゴリズムを使用する。 各チャンクは集合的に処理され、隣接するチャンクをプログレッシブトランスフォーマー層にマージする階層戦略が採用される。 トークン削減技術がマージ毎に先行し、メモリ使用効率が保証される。 また、入力長に対してメモリ要求を対数的にスケールさせる最適化された計算順序を提案し、特にメモリ制限の厳しい環境において好適である。 実験では,提案手法の優れた性能とメモリ効率を実証し,拡張コンテキストを必要とするコンテキストにおけるLLMの広範な利用を可能にした。 コードはhttps://github.com/alinlab/HOMER.comで入手できる。

Large language models (LLMs) have shown remarkable performance in various natural language processing tasks. However, a primary constraint they face is the context limit, i.e., the maximum number of tokens they can process. Previous works have explored architectural changes and modifications in positional encoding to relax the constraint, but they often require expensive training or do not address the computational demands of self-attention. In this paper, we present Hierarchical cOntext MERging (HOMER), a new training-free scheme designed to overcome the limitations. HOMER uses a divide-and-conquer algorithm, dividing long inputs into manageable chunks. Each chunk is then processed collectively, employing a hierarchical strategy that merges adjacent chunks at progressive transformer layers. A token reduction technique precedes each merging, ensuring memory usage efficiency. We also propose an optimized computational order reducing the memory requirement to logarithmically scale with respect to input length, making it especially favorable for environments with tight memory restrictions. Our experiments demonstrate the proposed method's superior performance and memory efficiency, enabling the broader use of LLMs in contexts requiring extended context. Code is available at https://github.com/alinlab/HOMER.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# 無線イヤホンによる呼吸運動のリアルタイムモニタリング:ディープラーニングによるアプローチ

Wireless Earphone-based Real-Time Monitoring of Breathing Exercises: A Deep Learning Approach ( http://arxiv.org/abs/2404.10310v1 )

ライセンス: Link先を確認
Hassam Khan Wazir, Zaid Waghoo, Vikram Kapila, (参考訳) いくつかの治療ルーチンは、重要な要素として深呼吸運動を必要とし、そのような治療を行う患者は定期的にこれらの運動を行う必要がある。 治療の結果を評価し、そのコースを調整するには、患者の治療へのコンプライアンスを監視する必要がある。 臨床環境では治療コンプライアンスモニタリングが日常的に行われているが,在宅環境では実施が困難である。 これは、患者によるセラピールーチンの実行を効果的に監視するために必要な専門的な機器や熟練した専門家へのアクセスが欠如しているためである。 ある種の治療法では、これらの課題は、実用的な解決策として、イヤホンやスマートフォンのようなコンシューマグレードのハードウェアを使用することで解決することができる。 ワイヤレスイヤホンを用いて呼吸運動を正確にモニタリングするために,在宅治療における患者のコンプライアンスを評価するための枠組みを提案する。 提案システムは,2つの畳み込みニューラルネットワークを用いて,$\mathbf{500}$ ms音声信号を処理することにより,呼吸相とチャネルを高精度にリアルタイムに検出する。 チャネル分類器と呼ばれる最初のネットワークは、鼻と口腔の呼吸と一時停止を区別する。 位相分類器と呼ばれる第2のネットワークは、オーディオセグメントが吸入か吸入かを決定する。 k$-foldクロスバリデーションによると、チャネルと位相分類器はそれぞれ$\mathbf{97.99\%}$と$\mathbf{89.46\%}$のF1スコアを達成した。 以上の結果から, 実時間呼吸路と位相検出にコモディティイヤホンを用いた呼吸療法コンプライアンスモニタリングの可能性が示された。

Several therapy routines require deep breathing exercises as a key component and patients undergoing such therapies must perform these exercises regularly. Assessing the outcome of a therapy and tailoring its course necessitates monitoring a patient's compliance with the therapy. While therapy compliance monitoring is routine in a clinical environment, it is challenging to do in an at-home setting. This is so because a home setting lacks access to specialized equipment and skilled professionals needed to effectively monitor the performance of a therapy routine by a patient. For some types of therapies, these challenges can be addressed with the use of consumer-grade hardware, such as earphones and smartphones, as practical solutions. To accurately monitor breathing exercises using wireless earphones, this paper proposes a framework that has the potential for assessing a patient's compliance with an at-home therapy. The proposed system performs real-time detection of breathing phases and channels with high accuracy by processing a $\mathbf{500}$ ms audio signal through two convolutional neural networks. The first network, called a channel classifier, distinguishes between nasal and oral breathing, and a pause. The second network, called a phase classifier, determines whether the audio segment is from inhalation or exhalation. According to $k$-fold cross-validation, the channel and phase classifiers achieved a maximum F1 score of $\mathbf{97.99\%}$ and $\mathbf{89.46\%}$, respectively. The results demonstrate the potential of using commodity earphones for real-time breathing channel and phase detection for breathing therapy compliance monitoring.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# 電気自動車充電の価格ベース需要応答の学習と最適化

Learning and Optimization for Price-based Demand Response of Electric Vehicle Charging ( http://arxiv.org/abs/2404.10311v1 )

ライセンス: Link先を確認
Chengyang Gu, Yuxin Pan, Ruohong Liu, Yize Chen, (参考訳) 電気自動車(EV)の充電に関して、価格ベースの需要応答(PBDR)は、充電負荷管理においてますます重要になっている。 このような対応は、通常、金融インセンティブの価格の変化に応じて、コストに敏感な顧客に対して、エネルギー需要の調整を促す。 したがって、EV充電をモデル化し最適化するためには、料金信号が与えられた場合の充電要求を正確に予測することにより、充電ステーションオペレーターがEV顧客のPBDRパターンをモデル化することが重要である。 そして、オペレータは、充電ステーションの電力割り当てポリシーを最適化するこれらの要求を参照する。 標準パイプラインは、過去のEV充電記録に基づいてPBDR関数をオフラインで取り付け、続いて、下流充電ステーションの動作最適化に推定EV要求を適用する。 本研究では,予測誤差と下流最適化コストの誤差をモデル学習段階で組み合わせたPBDRモデリングのための新しい決定中心のエンドツーエンドフレームワークを提案する。 本手法の有効性を,EV利用者のPBDRパターンを用いた充電ステーション動作シミュレーションにおいて評価し,本手法が究極の最適化プロセスに対してより信頼性の高い予測モデルを提供できることを示した。

In the context of charging electric vehicles (EVs), the price-based demand response (PBDR) is becoming increasingly significant for charging load management. Such response usually encourages cost-sensitive customers to adjust their energy demand in response to changes in price for financial incentives. Thus, to model and optimize EV charging, it is important for charging station operator to model the PBDR patterns of EV customers by precisely predicting charging demands given price signals. Then the operator refers to these demands to optimize charging station power allocation policy. The standard pipeline involves offline fitting of a PBDR function based on historical EV charging records, followed by applying estimated EV demands in downstream charging station operation optimization. In this work, we propose a new decision-focused end-to-end framework for PBDR modeling that combines prediction errors and downstream optimization cost errors in the model learning stage. We evaluate the effectiveness of our method on a simulation of charging station operation with synthetic PBDR patterns of EV customers, and experimental results demonstrate that this framework can provide a more reliable prediction model for the ultimate optimization process, leading to more effective optimization solutions in terms of cost savings and charging station operation objectives with only a few training samples.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# OmniSSR:安定拡散モデルを用いたゼロショット全方位画像超解像

OmniSSR: Zero-shot Omnidirectional Image Super-Resolution using Stable Diffusion Model ( http://arxiv.org/abs/2404.10312v1 )

ライセンス: Link先を確認
Runyi Li, Xuhan Sheng, Weiqi Li, Jian Zhang, (参考訳) ODI(Omnidirectional Image)は、現実世界の視覚タスクで一般的に使われ、高解像度のODIは関連する視覚タスクのパフォーマンス向上に役立つ。 ODIの既存の超解像法の多くはエンドツーエンドの学習戦略を用いており、結果として生成された画像の劣る現実性と、訓練方法における効果的な領域外一般化能力が欠如している。 拡散モデルで表現された画像生成手法は,視覚的タスクに強い先行性を与え,画像復元タスクに効果的に適用できることが証明されている。 安定拡散(SD)モデルの先行画像を活用することで,OmniSSRと呼ばれる全方位画像の高解像度化を実現した。 まず,等角射影(ERP)画像を接射影(TP)画像に変換し,その分布は平面画像領域に近似する。 次に、SDを用いて初期高分解能な結果を反復的にサンプリングする。 提案手法であるOctadecaplex Tangent Information Interaction (OTII) と Gradient Decomposition (GD) を用いて, より整合性を確保する。 最後に、TP画像を変換して最終高分解能結果を得る。 私たちの方法はゼロショットで、トレーニングや微調整は必要ありません。 提案手法の有効性を2つのベンチマークデータセットで検証した。

Omnidirectional images (ODIs) are commonly used in real-world visual tasks, and high-resolution ODIs help improve the performance of related visual tasks. Most existing super-resolution methods for ODIs use end-to-end learning strategies, resulting in inferior realness of generated images and a lack of effective out-of-domain generalization capabilities in training methods. Image generation methods represented by diffusion model provide strong priors for visual tasks and have been proven to be effectively applied to image restoration tasks. Leveraging the image priors of the Stable Diffusion (SD) model, we achieve omnidirectional image super-resolution with both fidelity and realness, dubbed as OmniSSR. Firstly, we transform the equirectangular projection (ERP) images into tangent projection (TP) images, whose distribution approximates the planar image domain. Then, we use SD to iteratively sample initial high-resolution results. At each denoising iteration, we further correct and update the initial results using the proposed Octadecaplex Tangent Information Interaction (OTII) and Gradient Decomposition (GD) technique to ensure better consistency. Finally, the TP images are transformed back to obtain the final high-resolution results. Our method is zero-shot, requiring no training or fine-tuning. Experiments of our method on two benchmark datasets demonstrate the effectiveness of our proposed method.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# 多変量モデルと多視点を用いた分類の不確かさの認識

Awareness of uncertainty in classification using a multivariate model and multi-views ( http://arxiv.org/abs/2404.10314v1 )

ライセンス: Link先を確認
Alexey Kornaev, Elena Kornaeva, Oleg Ivanov, Ilya Pershin, Danis Alukaev, (参考訳) 人工知能をより自然にする方法の1つは、それを疑う余地を与えることだ。 この方法で2つの主要な疑問を解決すべきである。 まず、モデルをトレーニングして、自身の予測の不確実性を推定する方法。 そして、もし現れたら、不確実な予測はどうなるのか? まず,N-クラス分類タスクの解に対する球分散行列を持つN-次元多変量正規分布の場合,不確実性を考慮した負の対数類似損失を提案する。 この損失はヘテロスセダスティック回帰損失と類似している。 提案モデルは不確かさ予測を正則化し,予測と不確かさ推定の両方を計算する訓練を行う。 モデルはラベルの平滑化技術とよく合っている。 第2に、トレーニングおよびテスト段階におけるデータ拡張の限界を拡張し、トレーニングされたモデルにより、各テストサンプルの所定の数の拡張バージョンに対して、複数の予測を行うようにしました。 マルチビュー予測と不確かさと信頼度を考慮し,モード値やソフトウェイトとハードウェイトによるビン数など,最終的な予測を計算する方法をいくつか提案した。 後者の手法では、モデルチューニングタスクを最大精度の微分不可能な基準でマルチモーダル最適化の形で定式化し、粒子群最適化を適用してチューニングタスクを解く。 提案手法は,CIFAR-10データセットをクリーンでノイズの多いラベル付きで試験し,サンプル選択,コティーチング,ラベル平滑化に関連する他の不確実性評価手法と比較した。

One of the ways to make artificial intelligence more natural is to give it some room for doubt. Two main questions should be resolved in that way. First, how to train a model to estimate uncertainties of its own predictions? And then, what to do with the uncertain predictions if they appear? First, we proposed an uncertainty-aware negative log-likelihood loss for the case of N-dimensional multivariate normal distribution with spherical variance matrix to the solution of N-classes classification tasks. The loss is similar to the heteroscedastic regression loss. The proposed model regularizes uncertain predictions, and trains to calculate both the predictions and their uncertainty estimations. The model fits well with the label smoothing technique. Second, we expanded the limits of data augmentation at the training and test stages, and made the trained model to give multiple predictions for a given number of augmented versions of each test sample. Given the multi-view predictions together with their uncertainties and confidences, we proposed several methods to calculate final predictions, including mode values and bin counts with soft and hard weights. For the latter method, we formalized the model tuning task in the form of multimodal optimization with non-differentiable criteria of maximum accuracy, and applied particle swarm optimization to solve the tuning task. The proposed methodology was tested using CIFAR-10 dataset with clean and noisy labels and demonstrated good results in comparison with other uncertainty estimation methods related to sample selection, co-teaching, and label smoothing.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# 過去の経験から学ぶことによる大規模言語モデルにおける信頼表現の強化

Enhancing Confidence Expression in Large Language Models Through Learning from Past Experience ( http://arxiv.org/abs/2404.10315v1 )

ライセンス: Link先を確認
Haixia Han, Tingyun Li, Shisong Chen, Jie Shi, Chengyu Du, Yanghua Xiao, Jiaqing Liang, Xin Lin, (参考訳) 大規模言語モデル(LLM)は、様々な下流タスクで顕著なパフォーマンスを示したが、確実なトーンで不正確または偽の情報を生成する可能性がある。 可能な解決策の1つは、LLM信頼表現能力の強化であり、表現された信頼度は、生成した回答の真確率が正しいものと整合することができる。 しかし, LLMの本質的な能力や回答の出力ロジットからの信号を活用することは, LLMの応答不確かさを正確に把握することの難しさを証明している。 そこで我々は,認知診断からインスピレーションを得て,信頼表現能力を高めるために過去の経験から学習する方法(LePe)を提案する。 具体的には、まず最初に3つの重要な問題を識別する: 1) LLMの本質的な信頼性をどうやって捉えるか? 2)LLMに自信を表現させるにはどうすればいいのか? (3)LLMの信頼性表現の評価方法 そして、これらの問題に対処するためにLePeの3つのステージを考案します。 また,学習データ構築時のLCMの信頼性を正確に把握するために,質問準備と回答サンプリングを含む完全なパイプラインを設計する。 また,LLMのLlamaファミリを用いて実験を行い,提案手法の有効性を4つのデータセットで検証した。

Large Language Models (LLMs) have exhibited remarkable performance across various downstream tasks, but they may generate inaccurate or false information with a confident tone. One of the possible solutions is to empower the LLM confidence expression capability, in which the confidence expressed can be well-aligned with the true probability of the generated answer being correct. However, leveraging the intrinsic ability of LLMs or the signals from the output logits of answers proves challenging in accurately capturing the response uncertainty in LLMs. Therefore, drawing inspiration from cognitive diagnostics, we propose a method of Learning from Past experience (LePe) to enhance the capability for confidence expression. Specifically, we first identify three key problems: (1) How to capture the inherent confidence of the LLM? (2) How to teach the LLM to express confidence? (3) How to evaluate the confidence expression of the LLM? Then we devise three stages in LePe to deal with these problems. Besides, to accurately capture the confidence of an LLM when constructing the training data, we design a complete pipeline including question preparation and answer sampling. We also conduct experiments using the Llama family of LLMs to verify the effectiveness of our proposed method on four datasets.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# LLMs4OM: オントロジーと大規模言語モデルとのマッチング

LLMs4OM: Matching Ontologies with Large Language Models ( http://arxiv.org/abs/2404.10317v1 )

ライセンス: Link先を確認
Hamed Babaei Giglou, Jennifer D'Souza, Sören Auer, (参考訳) オントロジーマッチング(オントロジーマッチング、Ontology Matching、OM)は、異種オントロジーの整合がデータの相互運用性と知識共有を促進する、知識統合における重要なタスクである。 従来のOMシステムは専門家の知識や予測モデルに依存しており、LLM(Large Language Models)の可能性を限定的に探究している。 OM タスクにおける LLM の有効性を評価するための新しいアプローチである LLMs4OM フレームワークを提案する。 このフレームワークは、2つのモジュールをそれぞれ検索とマッチングに利用し、概念、概念親子、概念子という3つのオントロジー表現にまたがるゼロショットプロンプトによって強化される。 様々なドメインから20個のOMデータセットを用いて総合評価を行い、LLMs4OMフレームワークの下では、特に複雑なマッチングシナリオにおいて、従来のOMシステムの性能にマッチし、さらに上回ることができることを示した。 以上の結果から,OM の分野に大きく貢献する LLM の可能性が浮き彫りになった。

Ontology Matching (OM), is a critical task in knowledge integration, where aligning heterogeneous ontologies facilitates data interoperability and knowledge sharing. Traditional OM systems often rely on expert knowledge or predictive models, with limited exploration of the potential of Large Language Models (LLMs). We present the LLMs4OM framework, a novel approach to evaluate the effectiveness of LLMs in OM tasks. This framework utilizes two modules for retrieval and matching, respectively, enhanced by zero-shot prompting across three ontology representations: concept, concept-parent, and concept-children. Through comprehensive evaluations using 20 OM datasets from various domains, we demonstrate that LLMs, under the LLMs4OM framework, can match and even surpass the performance of traditional OM systems, particularly in complex matching scenarios. Our results highlight the potential of LLMs to significantly contribute to the field of OM.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# SRGS:超高分解能3Dガウススプラッティング

SRGS: Super-Resolution 3D Gaussian Splatting ( http://arxiv.org/abs/2404.10318v1 )

ライセンス: Link先を確認
Xiang Feng, Yongbo He, Yubo Wang, Yan Yang, Zhenzhong Kuang, Yu Jun, Jianping Fan, Jiajun ding, (参考訳) 近年, 3D Gaussian Splatting (3DGS) が新規な3D表現として人気を集めている。 このアプローチは、高品質なレンダリングを提供するためにガウス原始体の表現力に依存する。 しかし、低解像度に最適化されたプリミティブは、必然的にスパーシリティとテクスチャの欠如を示し、高解像度の新規ビュー合成(HRNVS)の実現に挑戦している。 この問題に対処するため,高分解能(HR)空間で最適化を行うために,超解像3Dガウス散乱(SRGS)を提案する。 サブピクセル制約はHR空間における視点の増大のために導入され、多重低解像度(LR)ビューのサブピクセル・クロスビュー情報を利用する。 より多くの視点から蓄積された勾配は、プリミティブの密度化を促進する。 さらに、事前訓練された2次元超解像モデルとサブピクセル制約が統合され、これらの高密度プリミティブが忠実なテクスチャ特徴を学習できるようにする。 一般に,本手法は,プリミティブの表現能力を効果的に向上するために,密度化とテクスチャ学習に重点を置いている。 実験により,HRNVSのレンダリング品質はLR入力のみで向上し,Mip-NeRF 360 や Tanks & Temples といった挑戦的なデータセットに対する最先端の手法よりも優れていた。 関連するコードは受理後にリリースされる。

Recently, 3D Gaussian Splatting (3DGS) has gained popularity as a novel explicit 3D representation. This approach relies on the representation power of Gaussian primitives to provide a high-quality rendering. However, primitives optimized at low resolution inevitably exhibit sparsity and texture deficiency, posing a challenge for achieving high-resolution novel view synthesis (HRNVS). To address this problem, we propose Super-Resolution 3D Gaussian Splatting (SRGS) to perform the optimization in a high-resolution (HR) space. The sub-pixel constraint is introduced for the increased viewpoints in HR space, exploiting the sub-pixel cross-view information of the multiple low-resolution (LR) views. The gradient accumulated from more viewpoints will facilitate the densification of primitives. Furthermore, a pre-trained 2D super-resolution model is integrated with the sub-pixel constraint, enabling these dense primitives to learn faithful texture features. In general, our method focuses on densification and texture learning to effectively enhance the representation ability of primitives. Experimentally, our method achieves high rendering quality on HRNVS only with LR inputs, outperforming state-of-the-art methods on challenging datasets such as Mip-NeRF 360 and Tanks & Temples. Related codes will be released upon acceptance.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# ノイズの多い医用ビデオデータの処理への深層学習法の応用

Application of Deep Learning Methods to Processing of Noisy Medical Video Data ( http://arxiv.org/abs/2404.10319v1 )

ライセンス: Link先を確認
Danil Afonchikov, Elena Kornaeva, Irina Makovik, Alexey Kornaev, (参考訳) セルが連続的な流れを移動すると、セルのカウントは難しい問題となり、その境界線は視覚的検出には困難である。 この問題を解決するために,カリキュラム学習と多視点予測技術を用いて,学習と意思決定のプロセスを変更した。

Cells count become a challenging problem when the cells move in a continuous stream, and their boundaries are difficult for visual detection. To resolve this problem we modified the training and decision making processes using curriculum learning and multi-view predictions techniques, respectively.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# CARE to Compare:風力タービンデータにおける異常検出のための実世界のデータセット

CARE to Compare: A real-world dataset for anomaly detection in wind turbine data ( http://arxiv.org/abs/2404.10320v1 )

ライセンス: Link先を確認
Christian Gück, Cyriana M. A. Roelofs, Stefan Faulstich, (参考訳) 風力タービンの予測保守分野において異常検出は重要な役割を担っているが、ドメイン固有のパブリックデータセットが不足しているため、異なるアルゴリズムの比較は難しい課題となる。 さまざまなアプローチの比較では、さまざまなドメインのデータで構成されたベンチマーク、アクセス不可能なデータ、あるいは障害に関する詳細な情報を持たない数少ない公開データセットのいずれかが使用されている。 さらに、多くの出版物は、障害検出が成功したいくつかのケーススタディを強調している。 本稿では、3つの異なる風力発電所にわたる36基の風力タービンのデータと、我々の知る限りの公的な風力タービンデータセットの最も詳細な故障情報を含む高品質なデータセットを公表する。 この新しいデータセットには、89年分の風力タービンの実際の運用データが含まれており、異常につながる異常の44のラベル付きタイムフレームと、正常な振る舞いを表す51の時系列に分散されている。 さらに、トレーニングデータの質は、各データポイントのタービン統計に基づくラベルによって保証される。 さらに、データセットに存在する情報深度を利用して、良好な全周異常検出モデルを特定する、CARE(Coverage, Accuracy, Reliability and Earliness)と呼ばれる新たなスコアリング手法を提案する。 このスコアは、異常検出性能、正常な動作を適切に認識する能力、および、異常を早期に同時に検出しながら、可能な限り誤報を発生させる能力について考察する。

Anomaly detection plays a crucial role in the field of predictive maintenance for wind turbines, yet the comparison of different algorithms poses a difficult task because domain specific public datasets are scarce. Many comparisons of different approaches either use benchmarks composed of data from many different domains, inaccessible data or one of the few publicly available datasets which lack detailed information about the faults. Moreover, many publications highlight a couple of case studies where fault detection was successful. With this paper we publish a high quality dataset that contains data from 36 wind turbines across 3 different wind farms as well as the most detailed fault information of any public wind turbine dataset as far as we know. The new dataset contains 89 years worth of real-world operating data of wind turbines, distributed across 44 labeled time frames for anomalies that led up to faults, as well as 51 time series representing normal behavior. Additionally, the quality of training data is ensured by turbine-status-based labels for each data point. Furthermore, we propose a new scoring method, called CARE (Coverage, Accuracy, Reliability and Earliness), which takes advantage of the information depth that is present in the dataset to identify a good all-around anomaly detection model. This score considers the anomaly detection performance, the ability to recognize normal behavior properly and the capability to raise as few false alarms as possible while simultaneously detecting anomalies early.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# クロスドメインFew-Shotセグメンテーションのためのドメイン修正アダプタ

Domain-Rectifying Adapter for Cross-Domain Few-Shot Segmentation ( http://arxiv.org/abs/2404.10322v1 )

ライセンス: Link先を確認
Jiapeng Su, Qi Fan, Guangming Lu, Fanglin Chen, Wenjie Pei, (参考訳) Few-shot semantic segmentation (FSS)は、いくつかの注釈付きサンプルでサポートされている新しいクラスのセグメンテーションオブジェクトにおいて大きな成功を収めている。 しかしながら、既存のFSSメソッドは、特にトレーニング中に目に見えない新しいドメインスタイルに遭遇した場合、ドメインシフトの存在下ではパフォーマンスが低下することが多い。 数ショットのシナリオでは、モデル全体を新しいドメインに直接適応または一般化することが最適です。 その代わり、私たちのキーとなるアイデアは、さまざまなターゲットドメインスタイルをソースドメインに修正するための小さなアダプタを適用することです。 したがって、修正されたターゲットドメイン機能は、十分なソースドメインデータに基づいて熱心に訓練された、十分に最適化されたソースドメインセグメンテーションモデルの恩恵を受けることができる。 ドメイン修正アダプタのトレーニングには、十分に多様なターゲットドメインが必要である。 そこで本研究では,各画像の特徴チャネル統計とソース領域全体の集合統計を摂動することで,多種多様なターゲットドメインをシミュレートする,新たなローカル・グローバル・スタイルの摂動法を提案する。 さらに、逆のドメイン修正管理を用いて、アダプタが効果的にドメインを修正できるようにする環状ドメインアライメントモジュールを提案する。 アダプタは、さまざまな合成対象ドメインから画像特徴を修正して、ソースドメインと整合するように訓練される。 対象のドメイン上でのテストでは、まずイメージの機能を修正し、ドメインの修正された機能に対して数ショットのセグメンテーションを実行する。 提案手法の有効性を実証し,ドメイン間数ショットのセマンティックセマンティックセマンティクスタスクにおいて有望な結果が得られた。 私たちのコードはhttps://github.com/Matt-Su/DR-Adapter.comから入手可能です。

Few-shot semantic segmentation (FSS) has achieved great success on segmenting objects of novel classes, supported by only a few annotated samples. However, existing FSS methods often underperform in the presence of domain shifts, especially when encountering new domain styles that are unseen during training. It is suboptimal to directly adapt or generalize the entire model to new domains in the few-shot scenario. Instead, our key idea is to adapt a small adapter for rectifying diverse target domain styles to the source domain. Consequently, the rectified target domain features can fittingly benefit from the well-optimized source domain segmentation model, which is intently trained on sufficient source domain data. Training domain-rectifying adapter requires sufficiently diverse target domains. We thus propose a novel local-global style perturbation method to simulate diverse potential target domains by perturbating the feature channel statistics of the individual images and collective statistics of the entire source domain, respectively. Additionally, we propose a cyclic domain alignment module to facilitate the adapter effectively rectifying domains using a reverse domain rectification supervision. The adapter is trained to rectify the image features from diverse synthesized target domains to align with the source domain. During testing on target domains, we start by rectifying the image features and then conduct few-shot segmentation on the domain-rectified features. Extensive experiments demonstrate the effectiveness of our method, achieving promising results on cross-domain few-shot semantic segmentation tasks. Our code is available at https://github.com/Matt-Su/DR-Adapter.
翻訳日:2024-04-17 17:52:48 公開日:2024-04-16
# 都市排水網のリアルタイム油圧予測のためのグラフニューラルネットワークに基づく代理モデル

Graph neural network-based surrogate modelling for real-time hydraulic prediction of urban drainage networks ( http://arxiv.org/abs/2404.10324v1 )

ライセンス: Link先を確認
Zhiyu Zhang, Chenkaixiang Lu, Wenchong Tian, Zhenliang Liao, Zhiguo Yuan, (参考訳) 物理に基づくモデルは、都市排水網のリアルタイムシナリオにおいて計算に時間を要するため、オンライン予測モデルの高速化には代理モデルが必要である。 完全に接続されたニューラルネットワーク(NN)は、潜在的な代理モデルであるが、複雑なターゲットに適合する際の解釈可能性と効率の低下に悩まされる可能性がある。 グラフニューラルネットワーク(GNN)の最先端モデリング能力と,そのグラフ構造における都市排水網との整合性から,近年の油圧状態を初期条件とみなす排水網の水圧予測問題に対するGNNに基づくフロールーティングモデルのサロゲートと,今後の流出制御方針を境界条件として提案する。 水理的制約と物理的関係をドレインモデルに組み込むため,サロゲートモデル上に物理誘導機構を設計し,流量バランスと洪水発生制約による予測変数の制限を行う。 ストームウォーターネットワークの事例から,GNNモデルの方が,等速訓練後のNNモデルよりも高い油圧予測精度でコスト効率が向上し,解釈可能なドメイン知識による予測誤差をさらに制限する機構が考えられた。 モデル構造は都市排水網の流動経路機構と水理制約に固執するので,データ駆動サロゲートモデリングのための解釈可能かつ効果的なソリューションを提供する。 同時に、代理モデルにより、物理モデルと比較して都市排水網の予測モデルがリアルタイムで使用されるように加速される。

Physics-based models are computationally time-consuming and infeasible for real-time scenarios of urban drainage networks, and a surrogate model is needed to accelerate the online predictive modelling. Fully-connected neural networks (NNs) are potential surrogate models, but may suffer from low interpretability and efficiency in fitting complex targets. Owing to the state-of-the-art modelling power of graph neural networks (GNNs) and their match with urban drainage networks in the graph structure, this work proposes a GNN-based surrogate of the flow routing model for the hydraulic prediction problem of drainage networks, which regards recent hydraulic states as initial conditions, and future runoff and control policy as boundary conditions. To incorporate hydraulic constraints and physical relationships into drainage modelling, physics-guided mechanisms are designed on top of the surrogate model to restrict the prediction variables with flow balance and flooding occurrence constraints. According to case results in a stormwater network, the GNN-based model is more cost-effective with better hydraulic prediction accuracy than the NN-based model after equal training epochs, and the designed mechanisms further limit prediction errors with interpretable domain knowledge. As the model structure adheres to the flow routing mechanisms and hydraulic constraints in urban drainage networks, it provides an interpretable and effective solution for data-driven surrogate modelling. Simultaneously, the surrogate model accelerates the predictive modelling of urban drainage networks for real-time use compared with the physics-based model.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 量子コンピューティング:インタラクティブなビジュアル量子回路シミュレータを中心に構築されたオンラインコース

Quantum Computing for All: Online Courses Built Around Interactive Visual Quantum Circuit Simulator ( http://arxiv.org/abs/2404.10328v1 )

ライセンス: Link先を確認
Juha Reinikainen, Vlad Stirbu, Teiko Heinosaari, Vesa Lappalainen, Tommi Mikkonen, (参考訳) 量子コンピューティングは高度に抽象的な科学分野であり、将来の情報技術に非常に実用的な関係があることが期待されている。 これにより、教育者は様々なバックグラウンドを持ち、量子物理学の事前知識を持たない学生に量子コンピューティングを教える新しい方法を模索せざるを得ない。 我々は,インタラクティブな量子回路シミュレータをベースとしたオンラインコースを開発した。 即時フィードバックと自動評価タスクにより、すべての学生のバックグラウンドに関わらず、量子コンピューティングへの参入障壁が低下する。

Quantum computing is a highly abstract scientific discipline, which, however, is expected to have great practical relevance in future information technology. This forces educators to seek new methods to teach quantum computing for students with diverse backgrounds and with no prior knowledge of quantum physics. We have developed an online course built around an interactive quantum circuit simulator designed to enable easy creation and maintenance of course material with ranging difficulty. The immediate feedback and automatically evaluated tasks lowers the entry barrier to quantum computing for all students, regardless of their background.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 大規模言語モデルを用いた複雑なオントロジーアライメントを目指して

Towards Complex Ontology Alignment using Large Language Models ( http://arxiv.org/abs/2404.10329v1 )

ライセンス: Link先を確認
Reihaneh Amini, Sanaz Saki Norouzi, Pascal Hitzler, Reza Amini, (参考訳) 異なるオントロジー間の関係を検出するセマンティックウェブにおける重要なプロセスであるオントロジーアライメントは、伝統的に、クラスラベルとプロパティ比較を通じていわゆる「単純な」1対1の関係を特定することに重点を置いてきた。 より実用的に有用な、より複雑なアライメントの探索は、自動化するのが難しい問題であり、ほとんどの場合、アプリケーションの実践では、オントロジーやドメインの専門家が手作業で行う。 近年,Large Language Models(LLMs)の進歩にともなう自然言語処理(NLP)能力の急上昇は,オントロジーアライメントタスクを含むオントロジー工学の実践を強化する新たな機会を提供する。 本稿では,LLM技術の複雑なオントロジーアライメント問題への応用について検討する。 プロンプトベースのアプローチを活用して、いわゆるモジュールと呼ばれるリッチなオントロジーコンテンツを統合することは、複雑なアライメントタスクを自動化するための大きな進歩となります。

Ontology alignment, a critical process in the Semantic Web for detecting relationships between different ontologies, has traditionally focused on identifying so-called "simple" 1-to-1 relationships through class labels and properties comparison. The more practically useful exploration of more complex alignments remains a hard problem to automate, and as such is largely underexplored, i.e. in application practice it is usually done manually by ontology and domain experts. Recently, the surge in Natural Language Processing (NLP) capabilities, driven by advancements in Large Language Models (LLMs), presents new opportunities for enhancing ontology engineering practices, including ontology alignment tasks. This paper investigates the application of LLM technologies to tackle the complex ontology alignment challenge. Leveraging a prompt-based approach and integrating rich ontology content so-called modules our work constitutes a significant advance towards automating the complex alignment task.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 正しい治療法を規定する:目標学習による視覚・言語モデルにおける幻覚の緩和

Prescribing the Right Remedy: Mitigating Hallucinations in Large Vision-Language Models via Targeted Instruction Tuning ( http://arxiv.org/abs/2404.10332v1 )

ライセンス: Link先を確認
Rui Hu, Yahan Tu, Jitao Sang, (参考訳) 現在の大規模視覚言語モデル(LVLM)は、様々なクロスモーダルなタスクにおいて優れた性能を発揮するにもかかわらず、幻覚的な問題に悩まされ、生成した応答と対応する画像の矛盾として現れている。 従来の研究は、低品質の命令データ、特に正と負のサンプル間の歪んだバランスが、モデル幻覚に重要な寄与していることを示唆していた。 近年、モデル幻覚を緩和するために、LRV-Instructionのような高品質な命令データセットが提案されている。 しかしながら,本研究では,異なるLVLMの幻覚概念が特異性を示すこと,すなわち,幻覚概念の分布がモデルによって大きく異なることを明らかにする。 既存のデータセットは、設計過程において異なるモデルの幻覚特異性を考慮せず、モデル幻覚を緩和する効果を低下させた。 本稿では,異なるモデルの幻覚特異性に合わせたDFTGという命令データ生成フレームワークを提案する。 具体的には、幻覚診断(幻覚診断)と幻覚診断のための画像から必要な情報を抽出する)と、診断結果に基づいてターゲットデータを生成するターゲットデータ生成(ターゲットデータ生成)の2段階からなる。 幻覚ベンチマークによる実験結果から,本手法で生成した目標命令データの方が,従来よりも幻覚の緩和に有効であることが示唆された。

Despite achieving outstanding performance on various cross-modal tasks, current large vision-language models (LVLMs) still suffer from hallucination issues, manifesting as inconsistencies between their generated responses and the corresponding images. Prior research has implicated that the low quality of instruction data, particularly the skewed balance between positive and negative samples, is a significant contributor to model hallucinations. Recently, researchers have proposed high-quality instruction datasets, such as LRV-Instruction, to mitigate model hallucination. Nonetheless, our investigation reveals that hallucinatory concepts from different LVLMs exhibit specificity, i.e. the distribution of hallucinatory concepts varies significantly across models. Existing datasets did not consider the hallucination specificity of different models in the design processes, thereby diminishing their efficacy in mitigating model hallucination. In this paper, we propose a targeted instruction data generation framework named DFTG that tailored to the hallucination specificity of different models. Concretely, DFTG consists of two stages: hallucination diagnosis, which extracts the necessary information from the model's responses and images for hallucination diagnosis; and targeted data generation, which generates targeted instruction data based on diagnostic results. The experimental results on hallucination benchmarks demonstrate that the targeted instruction data generated by our method are more effective in mitigating hallucinations compared to previous datasets.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 拡散モデルを用いた目標移動シナリオ下での視覚言語モデルの効率的な逆例生成

Efficiently Adversarial Examples Generation for Visual-Language Models under Targeted Transfer Scenarios using Diffusion Models ( http://arxiv.org/abs/2404.10335v1 )

ライセンス: Link先を確認
Qi Guo, Shanmin Pang, Xiaojun Jia, Qing Guo, (参考訳) 敵の例を含むターゲット転送ベースの攻撃は、大きな視覚言語モデル(VLM)に重大な脅威をもたらす。 しかし、最先端のSOTA(State-of-the-art)トランスファーベースの攻撃は、過度な反復数のために高いコストを発生させる。 さらに, 生成した逆方向の例は, 明らかな逆方向雑音を示し, DiffPure などの防御方法の回避に限定した効果を示した。 スコアマッチングにインスパイアされたこれらの問題に対処するために,拡散モデルを用いて自然な非制限逆例を生成するAdvDiffVLMを提案する。 具体的には、AdvDiffVLMは適応アンサンブル勾配推定を用いて拡散モデルの逆生成過程のスコアを修正し、生成した逆数例が自然な逆数意味論を含むことを保証する。 同時に、敵対的事例の質を高めるために、特定の領域に集中するのではなく、GradCAM誘導マスク法を用いて、画像全体にわたって敵対的意味論を分散させる。 実験結果から,既存のトランスファーベース攻撃法と比較して10Xから30Xまでの高速化を実現し,対向例の優れた品質を維持した。 さらに, 生成した対人例は強い伝達性を有し, 対人防御法に対するロバスト性を高めた。 特にAdvDiffVLMは、GPT-4Vを含む商用VLMをブラックボックス方式で攻撃できる。

Targeted transfer-based attacks involving adversarial examples pose a significant threat to large visual-language models (VLMs). However, the state-of-the-art (SOTA) transfer-based attacks incur high costs due to excessive iteration counts. Furthermore, the generated adversarial examples exhibit pronounced adversarial noise and demonstrate limited efficacy in evading defense methods such as DiffPure. To address these issues, inspired by score matching, we introduce AdvDiffVLM, which utilizes diffusion models to generate natural, unrestricted adversarial examples. Specifically, AdvDiffVLM employs Adaptive Ensemble Gradient Estimation to modify the score during the diffusion model's reverse generation process, ensuring the adversarial examples produced contain natural adversarial semantics and thus possess enhanced transferability. Simultaneously, to enhance the quality of adversarial examples further, we employ the GradCAM-guided Mask method to disperse adversarial semantics throughout the image, rather than concentrating them in a specific area. Experimental results demonstrate that our method achieves a speedup ranging from 10X to 30X compared to existing transfer-based attack methods, while maintaining superior quality of adversarial examples. Additionally, the generated adversarial examples possess strong transferability and exhibit increased robustness against adversarial defense methods. Notably, AdvDiffVLM can successfully attack commercial VLMs, including GPT-4V, in a black-box manner.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 時系列予測における位置符号化の興味ある特性

Intriguing Properties of Positional Encoding in Time Series Forecasting ( http://arxiv.org/abs/2404.10337v1 )

ライセンス: Link先を確認
Jianqi Zhang, Jingyao Wang, Wenwen Qiang, Fanjiang Xu, Changwen Zheng, Fuchun Sun, Hui Xiong, (参考訳) トランスフォーマーに基づく手法は時系列予測(TSF)において大きな進歩を遂げている。 主に、同じタイムスタンプの全ての変数を含む時間トークンと、特定の変数に対する全ての入力時間ポイントを含む変数トークンの2種類のトークンを扱う。 トランスフォーマーベースの手法は、トークンの位置をマークするために位置符号化(PE)に依存しており、トークン間の相関を知覚するモデルを容易にしている。 しかし、TSFでは、PEの研究は依然として不十分である。 このギャップに対処するため、我々は実験を行い、TSFにおける既存のPEの興味深い特性を明らかにする。 一 PEによって注入された位置情報は、ネットワーク深度が増加するにつれて減少する。 2ディープネットワークにおける位置情報の強化は、モデルの性能向上に有利である。 三 トークン間の類似性に基づくPEは、モデルの性能を向上させることができる。 これらの結果から,時間的トークンに対する時間的位置エンコーディング(T-PE)と可変トークンに対する可変位置エンコーディング(V-PE)の2つの新しいPEを紹介した。 T-PEとV-PEはどちらも、トークンの位置に基づく幾何学的PEと、トークン間の類似性に基づく意味的PEを、異なる計算を用いて組み込んでいる。 両PEを利用するために,TransformerベースのT2B-PEというデュアルブランチ・フレームワークを設計した。 まず、時間的トークンの相関と可変トークンの相関を計算し、それからゲート単位を通して二重分岐特徴を融合する。 大規模な実験は、T2B-PEの優れた堅牢性と有効性を示す。 コードは以下の通りである。 \href{https://github.com/jlu-phyComputer/T2B-PE}{https://github.com/jlu-phyComputer/T2B-PE}。

Transformer-based methods have made significant progress in time series forecasting (TSF). They primarily handle two types of tokens, i.e., temporal tokens that contain all variables of the same timestamp, and variable tokens that contain all input time points for a specific variable. Transformer-based methods rely on positional encoding (PE) to mark tokens' positions, facilitating the model to perceive the correlation between tokens. However, in TSF, research on PE remains insufficient. To address this gap, we conduct experiments and uncover intriguing properties of existing PEs in TSF: (i) The positional information injected by PEs diminishes as the network depth increases; (ii) Enhancing positional information in deep networks is advantageous for improving the model's performance; (iii) PE based on the similarity between tokens can improve the model's performance. Motivated by these findings, we introduce two new PEs: Temporal Position Encoding (T-PE) for temporal tokens and Variable Positional Encoding (V-PE) for variable tokens. Both T-PE and V-PE incorporate geometric PE based on tokens' positions and semantic PE based on the similarity between tokens but using different calculations. To leverage both the PEs, we design a Transformer-based dual-branch framework named T2B-PE. It first calculates temporal tokens' correlation and variable tokens' correlation respectively and then fuses the dual-branch features through the gated unit. Extensive experiments demonstrate the superior robustness and effectiveness of T2B-PE. The code is available at: \href{https://github.com/jlu-phyComputer/T2B-PE}{https://github.com/jlu-phyComputer/T2B-PE}.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 確率過程の量子サンプリングにおける次元減少

Dimension reduction in quantum sampling of stochastic processes ( http://arxiv.org/abs/2404.10338v1 )

ライセンス: Link先を確認
Chengran Yang, Marta Florido-Llin`as, Mile Gu, Thomas J. Elliott, (参考訳) 量子技術は、確率過程の効率的なサンプリングと分析への有望な経路を提供する。 このような量子アドバンテージは、確率過程の量子サンプル状態を作成することに依存しており、これはプロセスの過去と未来の間の相関を伝播するためにメモリシステムを必要とする。 ここでは、このメモリを古典的限界を超えるだけでなく、現在最先端の量子確率的サンプリングアプローチを超えて圧縮できる損失量子次元減少法を提案する。 本稿では,この圧縮によるメモリ資源の節約と,それがもたらす歪みのトレードオフについて検討する。 本手法はマルコフ過程および強非マルコフ過程の低歪み圧縮に極めて有効であることを示す。 さらに、量子確率モデリングへの我々の結果の適用についてより広く論じる。

Quantum technologies offer a promising route to the efficient sampling and analysis of stochastic processes, with potential applications across the sciences. Such quantum advantages rely on the preparation of a quantum sample state of the stochastic process, which requires a memory system to propagate correlations between the past and future of the process. Here, we introduce a method of lossy quantum dimension reduction that allows this memory to be compressed, not just beyond classical limits, but also beyond current state-of-the-art quantum stochastic sampling approaches. We investigate the trade-off between the saving in memory resources from this compression, and the distortion it introduces. We show that our approach can be highly effective in low distortion compression of both Markovian and strongly non-Markovian processes alike. We further discuss the application of our results to quantum stochastic modelling more broadly.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 資産管理, 条件モニタリング, デジタルツイン:鉄筋コンクリート橋の損傷検出と仮想検査

Asset management, condition monitoring and Digital Twins: damage detection and virtual inspection on a reinforced concrete bridge ( http://arxiv.org/abs/2404.10341v1 )

ライセンス: Link先を確認
Arnulf Hagen, Trond Michael Andersen, (参考訳) 2021年4月、ノルウェーのE6に架かる主要橋であるスタヴァ橋が突然閉鎖された。 構造上の欠陥が橋の構造的整合性を著しく損なっていた。 ノルウェー公道管理局(NPRA)は閉鎖し、一時的な解決を行い、厳しい交通規制で再開した。 インシデントは、IoTセンサーからデータを処理するDigital Twinのブリッジを構成するものを通じて警告された。 このソリューションは、オンラインおよびオフラインの診断において極めて重要であり、新興の危険な状況に対処し、予防的に行動する技術の価値を示すものだった。 緊急かつ急速に発達する損傷は、開発を止めるために検出されたが、事故を完全に避けるには間に合わなかった。 この論文は、ハイウェイインフラに責任を持つ組織に対して、より広い視点でリスクを課している。 リスクと条件に基づく保守という文脈で、オンラインモニタリングとデジタルツインを位置づけている。 スタバ橋で発生した状況と、仮想検査中にどのように検出され、分析され、診断されたかについて述べる。 このケースでは、物理に基づく手法と機械学習を組み合わせることで、損傷の検出と診断が容易になることを示す。 技術面と組織面の両方から学んだ教訓の要約と今後の仕事の計画を紹介する。

In April 2021 Stava bridge, a main bridge on E6 in Norway, was abruptly closed for traffic. A structural defect had seriously compromised the bridge structural integrity. The Norwegian Public Roads Administration (NPRA) closed it, made a temporary solution and reopened with severe traffic restrictions. The incident was alerted through what constitutes the bridge Digital Twin processing data from Internet of Things sensors. The solution was crucial in online and offline diagnostics, the case demonstrating the value of technologies to tackle emerging dangerous situations as well as acting preventively. A critical and rapidly developing damage was detected in time to stop the development, but not in time to avoid the incident altogether. The paper puts risk in a broader perspective for an organization responsible for highway infrastructure. It positions online monitoring and Digital Twins in the context of Risk- and Condition-Based Maintenance. The situation that arose at Stava bridge, and how it was detected, analyzed, and diagnosed during virtual inspection, is described. The case demonstrates how combining physics-based methods with Machine Learning can facilitate damage detection and diagnostics. A summary of lessons learnt, both from technical and organizational perspectives, as well as plans of future work, is presented.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# フレキシブルな画像復元

Referring Flexible Image Restoration ( http://arxiv.org/abs/2404.10342v1 )

ライセンス: Link先を確認
Runwei Guan, Rongsheng Hu, Zhuhao Zhou, Tianlang Xue, Ka Lok Man, Jeremy Smith, Eng Gee Lim, Weiping Ding, Yutao Yue, (参考訳) 実際には、画像は夜間の雨や霧(三重劣化)など、複数の劣化を示すことが多い。 しかし、多くの場合、個人はすべての劣化を取り除きたくないかもしれない。例えば、美しい雪景色(二重の劣化)を示すぼやけたレンズなどだ。 このようなシナリオでは、人々はデブラーを欲しがるだけかもしれません。 これらの状況と要件は、画像復元において新たな課題を浮き彫りにした。モデルでは、複数の劣化を伴う画像において、人間のコマンドによって指定された特定の劣化タイプを知覚し、取り除かなければならない。 本稿では、このタスクをフレキシブルイメージ復元(RFIR)と呼ぶ。 まず, 劣化画像を含む153,423個のサンプルと, 特定の劣化除去のためのテキストプロンプトと復元画像からなる, RFIRと呼ばれる大規模合成データセットを構築した。 RFIRは5つの基本的な分解タイプから成っている: ぼやけ, 雨, 迷路, 低照度, 雪。 この課題に対処するため,TransRFIRと呼ばれるトランスフォーマーベースのマルチタスクモデルを提案し,同時に劣化画像の劣化タイプを認識し,テキストプロンプトによる特定の劣化を除去する。 TransRFIRは、MHASA(Multi-Head Agent Self-Attention)とMHACA(Multi-Head Agent Cross Attention)という2つの工夫された注目モジュールに基づいている。 我々のTransRFIRは,他の技術と比較して最先端の性能を達成し,画像復元に有効なアーキテクチャとして証明されている。 私たちは、https://github.com/GuanRunwei/FIR-CPでプロジェクトをリリースします。

In reality, images often exhibit multiple degradations, such as rain and fog at night (triple degradations). However, in many cases, individuals may not want to remove all degradations, for instance, a blurry lens revealing a beautiful snowy landscape (double degradations). In such scenarios, people may only desire to deblur. These situations and requirements shed light on a new challenge in image restoration, where a model must perceive and remove specific degradation types specified by human commands in images with multiple degradations. We term this task Referring Flexible Image Restoration (RFIR). To address this, we first construct a large-scale synthetic dataset called RFIR, comprising 153,423 samples with the degraded image, text prompt for specific degradation removal and restored image. RFIR consists of five basic degradation types: blur, rain, haze, low light and snow while six main sub-categories are included for varying degrees of degradation removal. To tackle the challenge, we propose a novel transformer-based multi-task model named TransRFIR, which simultaneously perceives degradation types in the degraded image and removes specific degradation upon text prompt. TransRFIR is based on two devised attention modules, Multi-Head Agent Self-Attention (MHASA) and Multi-Head Agent Cross Attention (MHACA), where MHASA and MHACA introduce the agent token and reach the linear complexity, achieving lower computation cost than vanilla self-attention and cross-attention and obtaining competitive performances. Our TransRFIR achieves state-of-the-art performances compared with other counterparts and is proven as an effective architecture for image restoration. We release our project at https://github.com/GuanRunwei/FIR-CP.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 第9回 NTIRE 2024 能率超解法問題報告

The Ninth NTIRE 2024 Efficient Super-Resolution Challenge Report ( http://arxiv.org/abs/2404.10343v1 )

ライセンス: Link先を確認
Bin Ren, Yawei Li, Nancy Mehta, Radu Timofte, Hongyuan Yu, Cheng Wan, Yuxin Hong, Bingnan Han, Zhuoyuan Wu, Yajun Zou, Yuqing Liu, Jizhe Li, Keji He, Chao Fan, Heng Zhang, Xiaolin Zhang, Xuanwu Yin, Kunlong Zuo, Bohao Liao, Peizhe Xia, Long Peng, Zhibo Du, Xin Di, Wangkai Li, Yang Wang, Wei Zhai, Renjing Pei, Jiaming Guo, Songcen Xu, Yang Cao, Zhengjun Zha, Yan Wang, Yi Liu, Qing Wang, Gang Zhang, Liou Zhang, Shijie Zhao, Long Sun, Jinshan Pan, Jiangxin Dong, Jinhui Tang, Xin Liu, Min Yan, Qian Wang, Menghan Zhou, Yiqiang Yan, Yixuan Liu, Wensong Chan, Dehua Tang, Dong Zhou, Li Wang, Lu Tian, Barsoum Emad, Bohan Jia, Junbo Qiao, Yunshuai Zhou, Yun Zhang, Wei Li, Shaohui Lin, Shenglong Zhou, Binbin Chen, Jincheng Liao, Suiyi Zhao, Zhao Zhang, Bo Wang, Yan Luo, Yanyan Wei, Feng Li, Mingshen Wang, Yawei Li, Jinhan Guan, Dehua Hu, Jiawei Yu, Qisheng Xu, Tao Sun, Long Lan, Kele Xu, Xin Lin, Jingtong Yue, Lehan Yang, Shiyi Du, Lu Qi, Chao Ren, Zeyu Han, Yuhan Wang, Chaolin Chen, Haobo Li, Mingjun Zheng, Zhongbao Yang, Lianhong Song, Xingzhuo Yan, Minghan Fu, Jingyi Zhang, Baiang Li, Qi Zhu, Xiaogang Xu, Dan Guo, Chunle Guo, Jiadi Chen, Huanhuan Long, Chunjiang Duanmu, Xiaoyan Lei, Jie Liu, Weilin Jia, Weifeng Cao, Wenlong Zhang, Yanyu Mao, Ruilong Guo, Nihao Zhang, Qian Wang, Manoj Pandey, Maksym Chernozhukov, Giang Le, Shuli Cheng, Hongyuan Wang, Ziyan Wei, Qingting Tang, Liejun Wang, Yongming Li, Yanhui Guo, Hao Xu, Akram Khatami-Rizi, Ahmad Mahmoudi-Aznaveh, Chih-Chung Hsu, Chia-Ming Lee, Yi-Shiuan Chou, Amogh Joshi, Nikhil Akalwadi, Sampada Malagi, Palani Yashaswini, Chaitra Desai, Ramesh Ashok Tabib, Ujwala Patil, Uma Mudenagudi, (参考訳) 本稿では,NTIRE 2024の課題を概観し,効率的な単一画像超解解法(ESR)とその結果に焦点をあてる。 この課題の課題は、低解像度と対応する高解像度の画像対に基づいて、x4倍率の入力画像を超解することである。 主な目的は、DIV2K_LSDIR_validデータセットで26.90dB、DIV2K_LSDIR_testデータセットで26.99dBのピーク信号対雑音比(PSNR)を維持しながら、ランタイム、パラメータ、FLOPなどの様々な側面を最適化するネットワークを開発することである。 また、メイントラック(オーバーパフォーマンス)、サブトラック1(ランタイム)、サブトラック2(FLOP)、サブトラック3(パラメータ)の4トラックがある。 メイントラックでは、すべての3つのメトリクス(実行時、FLOP、パラメータカウント)が考慮された。 メイントラックの順位は、他の全てのサブトラックのスコアの重み付け和に基づいて算出される。 サブトラック1では,提案項目の実際の実行時性能を評価し,対応するスコアを用いてランキングを決定する。 準線路2ではFLOPの数が考慮された。 順位を決定するために、対応するFLOPに基づいて算出したスコアを使用した。 サブトラック3ではパラメータの数を考慮した。 順位を決定するために,対応するパラメータに基づいて算出したスコアを用いた。 RLFNは効率測定の基準線として設定される。 このチャレンジには262人の登録参加者が参加し、34チームが有効な応募を行った。 彼らは効率の良いシングルイメージ超解像で最先端の計測を行う。 課題の再現性を促進し、他の研究者がこれらの発見に基づいて構築できるように、検証済みソリューションのコードと事前トレーニングされたモデルはhttps://github.com/Amazingren/NTIRE2024_ESR/で公開されている。

This paper provides a comprehensive review of the NTIRE 2024 challenge, focusing on efficient single-image super-resolution (ESR) solutions and their outcomes. The task of this challenge is to super-resolve an input image with a magnification factor of x4 based on pairs of low and corresponding high-resolution images. The primary objective is to develop networks that optimize various aspects such as runtime, parameters, and FLOPs, while still maintaining a peak signal-to-noise ratio (PSNR) of approximately 26.90 dB on the DIV2K_LSDIR_valid dataset and 26.99 dB on the DIV2K_LSDIR_test dataset. In addition, this challenge has 4 tracks including the main track (overall performance), sub-track 1 (runtime), sub-track 2 (FLOPs), and sub-track 3 (parameters). In the main track, all three metrics (ie runtime, FLOPs, and parameter count) were considered. The ranking of the main track is calculated based on a weighted sum-up of the scores of all other sub-tracks. In sub-track 1, the practical runtime performance of the submissions was evaluated, and the corresponding score was used to determine the ranking. In sub-track 2, the number of FLOPs was considered. The score calculated based on the corresponding FLOPs was used to determine the ranking. In sub-track 3, the number of parameters was considered. The score calculated based on the corresponding parameters was used to determine the ranking. RLFN is set as the baseline for efficiency measurement. The challenge had 262 registered participants, and 34 teams made valid submissions. They gauge the state-of-the-art in efficient single-image super-resolution. To facilitate the reproducibility of the challenge and enable other researchers to build upon these findings, the code and the pre-trained model of validated solutions are made publicly available at https://github.com/Amazingren/NTIRE2024_ESR/.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# ピット回避のための自己説明:細粒度リワードによる言語モデルの推論能力の向上

Self-Explore to Avoid the Pit: Improving the Reasoning Capabilities of Language Models with Fine-grained Rewards ( http://arxiv.org/abs/2404.10346v1 )

ライセンス: Link先を確認
Hyeonbin Hwang, Doyoung Kim, Seungone Kim, Seonghyeon Ye, Minjoon Seo, (参考訳) 大量の論理学(CoTファインチューニング)の訓練は、大規模言語モデル(LLM)の推論能力を改善するのに効果的である。 しかし、プロプライエタリなモデルから人間公認の合理性を獲得することや、合理性を強化することは、コストが高く、スケーラブルではない。 本稿では,LLMが推論能力を自己改善できるかどうかを考察する。 この目的のために,LLMは論理学における第1ステップ(すなわち第1ピット)を探索し,さらに改善するために細かな報酬などの信号を使用するセルフエクスロアを提案する。 GSM8KとMATHテストセットでは、教師付き微調整(SFT)に比べて平均11.57%と2.89%の改善が達成されている。 私たちのコードはhttps://github.com/hbin0701/Self-Explore.comで公開されています。

Training on large amounts of rationales (i.e., CoT Fine-tuning) is effective at improving the reasoning capabilities of large language models (LLMs). However, acquiring human-authored rationales or augmenting rationales from proprietary models is costly and not scalable. In this paper, we study the problem of whether LLMs could self-improve their reasoning capabilities. To this end, we propose Self-Explore, where the LLM is tasked to explore the first wrong step (i.e., the first pit) within the rationale and use such signals as fine-grained rewards for further improvement. On the GSM8K and MATH test set, Self-Explore achieves 11.57% and 2.89% improvement on average across three LLMs compared to supervised fine-tuning (SFT). Our code is available at https://github.com/hbin0701/Self-Explore.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# クラスタリング手法の比較における相対的妥当性指標の利用について

On the Use of Relative Validity Indices for Comparing Clustering Approaches ( http://arxiv.org/abs/2404.10351v1 )

ライセンス: Link先を確認
Luke W. Yerbury, Ricardo J. G. B. Campello, G. C. Livingston Jr, Mark Goldsworthy, Lachlan O'Neil, (参考訳) Silhouette Width Criterion、Calinski-Harabasz、Davie's Bouldin Indicesなどの相対的妥当性指標(RVI)はクラスタリングの応用を評価し最適化するための最も一般的なツールである。 候補パーティションのコレクションをランク付けする能力は、クラスタ数の選択をガイドし、異なるクラスタリングアルゴリズムのパーティションを比較するために使用されています。 これらの従来のタスク以外にも、データ正規化手順やデータ表現方法、距離測定など、クラスタリングアプローチの他の側面の比較や選択にRVIを使用した文献でも、多くの例が見られる。 著者らは、そのような比較のためにRVIの適合性を確立しようと試みたいかなる研究にも気づいていない。 さらに、これらの側面がペアの類似性に与える影響を考えると、これらの側面を比較する際にRVIをどのように実装すべきかはすぐには明らかではない。 本研究では,合成データセットと実世界のデータセットの合計270万以上のクラスタリングパーティションに対して,特徴ベクトルと時系列データを含む7つの共通RVIを用いて実験を行った。 以上の結果から,RVIはこれらの非従来的課題に適していないことが示唆され,そのようなアプリケーションから引き出された結論が誤解を招く可能性がある。 高品質なラベル付きデータセットの外部検証や、適切なドメイン知識とクラスタリングの目的によって通知されるべき結果指向の客観的基準を用いて、正規化手順、表現方法、距離測定を選択することを推奨する。

Relative Validity Indices (RVIs) such as the Silhouette Width Criterion, Calinski-Harabasz and Davie's Bouldin indices are the most popular tools for evaluating and optimising applications of clustering. Their ability to rank collections of candidate partitions has been used to guide the selection of the number of clusters, and to compare partitions from different clustering algorithms. Beyond these more conventional tasks, many examples can be found in the literature where RVIs have been used to compare and select other aspects of clustering approaches such as data normalisation procedures, data representation methods, and distance measures. The authors are not aware of any studies that have attempted to establish the suitability of RVIs for such comparisons. Moreover, given the impact of these aspects on pairwise similarities, it is not even immediately obvious how RVIs should be implemented when comparing these aspects. In this study, we conducted experiments with seven common RVIs on over 2.7 million clustering partitions for both synthetic and real-world datasets, encompassing feature-vector and time-series data. Our findings suggest that RVIs are not well-suited to these unconventional tasks, and that conclusions drawn from such applications may be misleading. It is recommended that normalisation procedures, representation methods, and distance measures instead be selected using external validation on high quality labelled datasets or carefully designed outcome-oriented objective criteria, both of which should be informed by relevant domain knowledge and clustering aims.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 正負結合解析によるグラフ多項式フィルタの再検討

Rethinking the Graph Polynomial Filter via Positive and Negative Coupling Analysis ( http://arxiv.org/abs/2404.10353v1 )

ライセンス: Link先を確認
Haodong Wen, Bodong Du, Ruixun Liu, Deyu Meng, Xiangyong Cao, (参考訳) 近年,スペクトルグラフニューラルネットワーク(GNN)における多項式フィルタの最適化が注目されている。 既存のスペクトルGNNは、主にフィルタ設計における多項式特性を強調し、計算オーバーヘッドを導入し、重要なグラフ構造情報の統合を無視している。 グラフ情報をベース構造に組み込むことで、多項式基底の理解を深め、さらに単純化された多項式フィルタの設計を容易にすることができると論じる。 そこで我々はまず,肯定的・否定的結合分析(PNCA)フレームワークを提案する。 次に、メッセージ伝搬の観点からPNCAを探索し、アクティベーションプロセスに隠された微妙な情報を明らかにする。 その後、PNCAを用いてメインストリーム多項式フィルタを解析し、正と負の活性化を分離し、グラフ構造情報を完全に活用する新しい単純な基盤を設計する。 最後に、GNN(GSCNetと呼ばれる)が新しいベースに基づいて提案される。 ノード分類のためのベンチマークデータセットの実験結果から、GSCNetは既存の最先端のGNNと比較して、比較的少ない計算時間で良い結果が得られることを確認した。

Recently, the optimization of polynomial filters within Spectral Graph Neural Networks (GNNs) has emerged as a prominent research focus. Existing spectral GNNs mainly emphasize polynomial properties in filter design, introducing computational overhead and neglecting the integration of crucial graph structure information. We argue that incorporating graph information into basis construction can enhance understanding of polynomial basis, and further facilitate simplified polynomial filter design. Motivated by this, we first propose a Positive and Negative Coupling Analysis (PNCA) framework, where the concepts of positive and negative activation are defined and their respective and mixed effects are analysed. Then, we explore PNCA from the message propagation perspective, revealing the subtle information hidden in the activation process. Subsequently, PNCA is used to analyze the mainstream polynomial filters, and a novel simple basis that decouples the positive and negative activation and fully utilizes graph structure information is designed. Finally, a simple GNN (called GSCNet) is proposed based on the new basis. Experimental results on the benchmark datasets for node classification verify that our GSCNet obtains better or comparable results compared with existing state-of-the-art GNNs while demanding relatively less computational time.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 薬物動態予測のための物理式強化マルチタスク学習

Physical formula enhanced multi-task learning for pharmacokinetics prediction ( http://arxiv.org/abs/2404.10354v1 )

ライセンス: Link先を確認
Ruifeng Li, Dongzhan Zhou, Ancheng Shen, Ao Zhang, Mao Su, Mingqian Li, Hongyang Chen, Gang Chen, Yin Zhang, Shufei Zhang, Yuqiang Li, Wanli Ouyang, (参考訳) 人工知能(AI)技術は、新薬の投与量、安全性、有効性を決定する上で、薬物動態が重要な役割を果たす薬物発見において、顕著な可能性を示している。 AI駆動型薬物発見(AIDD)の大きな課題は、高品質なデータの不足である。 この典型的な例は薬物動態実験である。 本研究では,薬物動態の4つの重要なパラメータを同時に予測する物理式強化マルチタスク学習法(PEMAL)を開発した。 物理式をマルチタスクフレームワークに組み込むことで、PEMALは薬物動態パラメータ間の効果的な知識共有と目標アライメントを促進し、予測の精度を高める。 実験の結果,PEMALは一般的なグラフニューラルネットワークに比べてデータ需要を著しく低減することがわかった。 さらに,従来のニューラルネットワークが持たない利点として,PEMALが雑音に対するロバスト性を高めることを示す。 PEMALのもう1つの利点は高い柔軟性であり、他のマルチタスク機械学習シナリオに適用できる可能性がある。 全体として、我々の研究はAIDDやデータ不足やノイズを伴う他のシナリオでPEMALを使用することのメリットと可能性を示しています。

Artificial intelligence (AI) technology has demonstrated remarkable potential in drug dis-covery, where pharmacokinetics plays a crucial role in determining the dosage, safety, and efficacy of new drugs. A major challenge for AI-driven drug discovery (AIDD) is the scarcity of high-quality data, which often requires extensive wet-lab work. A typical example of this is pharmacokinetic experiments. In this work, we develop a physical formula enhanced mul-ti-task learning (PEMAL) method that predicts four key parameters of pharmacokinetics simultaneously. By incorporating physical formulas into the multi-task framework, PEMAL facilitates effective knowledge sharing and target alignment among the pharmacokinetic parameters, thereby enhancing the accuracy of prediction. Our experiments reveal that PEMAL significantly lowers the data demand, compared to typical Graph Neural Networks. Moreover, we demonstrate that PEMAL enhances the robustness to noise, an advantage that conventional Neural Networks do not possess. Another advantage of PEMAL is its high flexibility, which can be potentially applied to other multi-task machine learning scenarios. Overall, our work illustrates the benefits and potential of using PEMAL in AIDD and other scenarios with data scarcity and noise.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 概念発見のための潜在拡散モデルによる対物軌道の生成

Generating Counterfactual Trajectories with Latent Diffusion Models for Concept Discovery ( http://arxiv.org/abs/2404.10356v1 )

ライセンス: Link先を確認
Payal Varshney, Adriano Lucieri, Christoph Balada, Andreas Dengel, Sheraz Ahmed, (参考訳) 信頼感は、医学のような高度な領域における不透明なディープラーニングモデルの安全な適用のための主要な前提条件である。 意思決定プロセスを理解することは、信頼の育成に寄与するだけでなく、医療研究の進展につながる複雑なモデルの、これまで未知の意思決定基準を明らかにする可能性もある。 ブラックボックスモデルによる決定関連概念の発見は、特に難しい課題である。 本研究では,拡散モデルの優れた画像合成機能を活用した概念発見のための新しい3段階フレームワークであるCDCTによる概念発見を提案する。 最初のステップでは、CDCTはLatent Diffusion Model(LDM)を使用して、反現実的な軌跡データセットを生成する。 このデータセットは、変分オートエンコーダ(VAE)を用いて分類関連概念の不整合表現を導出するために用いられる。 最後に,不整合潜在空間における関係概念の同定に探索アルゴリズムを適用した。 最大の皮膚病変データセットに基づいて訓練した分類器へのCDCTの適用により,いくつかのバイアスだけでなく,有意義なバイオマーカーの存在が確認された。 さらに,CDCT内で生成した反ファクトは,従来確立されていた最先端手法よりもFIDスコアが優れ,資源効率は12倍に向上した。 教師なしの概念発見は、信頼できるAIの応用と、さまざまな分野における人間の知識のさらなる発展に大きな可能性を秘めている。 CDCTはこの方向のさらなるステップを表している。

Trustworthiness is a major prerequisite for the safe application of opaque deep learning models in high-stakes domains like medicine. Understanding the decision-making process not only contributes to fostering trust but might also reveal previously unknown decision criteria of complex models that could advance the state of medical research. The discovery of decision-relevant concepts from black box models is a particularly challenging task. This study proposes Concept Discovery through Latent Diffusion-based Counterfactual Trajectories (CDCT), a novel three-step framework for concept discovery leveraging the superior image synthesis capabilities of diffusion models. In the first step, CDCT uses a Latent Diffusion Model (LDM) to generate a counterfactual trajectory dataset. This dataset is used to derive a disentangled representation of classification-relevant concepts using a Variational Autoencoder (VAE). Finally, a search algorithm is applied to identify relevant concepts in the disentangled latent space. The application of CDCT to a classifier trained on the largest public skin lesion dataset revealed not only the presence of several biases but also meaningful biomarkers. Moreover, the counterfactuals generated within CDCT show better FID scores than those produced by a previously established state-of-the-art method, while being 12 times more resource-efficient. Unsupervised concept discovery holds great potential for the application of trustworthy AI and the further development of human knowledge in various domains. CDCT represents a further step in this direction.
翻訳日:2024-04-17 17:43:04 公開日:2024-04-16
# 視覚言語モデルのための多知識表現によるプロンプト学習の最適化

Optimization of Prompt Learning via Multi-Knowledge Representation for Vision-Language Models ( http://arxiv.org/abs/2404.10357v1 )

ライセンス: Link先を確認
Enming Zhang, Bingke zhu, Yingying Chen, Qinghai Miao, Ming Tang, Jinqiao Wang, (参考訳) ビジョンランゲージモデル(VLM)は、CLIPのような様々なクロスモーダルアプリケーションにおいて基礎的な役割を果たす。 下流タスクに適応するVLMのポテンシャルを完全に活用するためには、Prompt Tuningのようなコンテキスト最適化手法が不可欠である。 しかし、1つの重要な制限は、プロンプトテンプレートの多様性の欠如である。 この制限は、事前訓練されたVLMの能力を制限し、下流タスクにおける誤った予測をもたらす可能性がある。 この課題に対処するために,多知識表現を用いたコンテキスト最適化(CoKnow)を提案する。 推論中のCoKnowを容易にするために,入力画像のマルチ知識表現を生成する軽量なセマンティック知識マッパーを,追加の事前処理を必要とせずに訓練した。 実験により,11個の公開データセットに対して大規模な実験を行い,CoKnowが過去の手法より優れていることを示した。 すべてのリソースをオープンソースにします。

Vision-Language Models (VLMs), such as CLIP, play a foundational role in various cross-modal applications. To fully leverage VLMs' potential in adapting to downstream tasks, context optimization methods like Prompt Tuning are essential. However, one key limitation is the lack of diversity in prompt templates, whether they are hand-crafted or learned through additional modules. This limitation restricts the capabilities of pretrained VLMs and can result in incorrect predictions in downstream tasks. To address this challenge, we propose Context Optimization with Multi-Knowledge Representation (CoKnow), a framework that enhances Prompt Learning for VLMs with rich contextual knowledge. To facilitate CoKnow during inference, we trained lightweight semantic knowledge mappers, which are capable of generating Multi-Knowledge Representation for an input image without requiring additional priors. Experimentally, We conducted extensive experiments on 11 publicly available datasets, demonstrating that CoKnow outperforms a series of previous methods. We will make all resources open-source: https://github.com/EMZucas/CoKnow.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# フロー誘導アライメントによるブラケット画像の復元と機能強化

Improving Bracket Image Restoration and Enhancement with Flow-guided Alignment and Enhanced Feature Aggregation ( http://arxiv.org/abs/2404.10358v1 )

ライセンス: Link先を確認
Wenjie Lin, Zhen Liu, Chengzhi Jiang, Mingyan Han, Ting Jiang, Shuaicheng Liu, (参考訳) 本稿では、ノイズ、ぼかし、低ダイナミックレンジ(LDR)マルチ露光RAW入力から高品質のハイダイナミックレンジ(HDR)イメージを復元する必要がある新しいフレームワークを用いて、ブラケット画像復元・拡張(BracketIRE)タスクに対処する。 この課題を克服するために、フローガイド機能アライメントモジュール(FFAM)と拡張機能アグリゲーションモジュール(EFAM)による多重露光アライメントとアグリゲーションを改善したIREANetを提案する。 具体的には、フレーム間光学フローをガイダンスとして組み込んで、変形可能なアライメントと空間的アライメントモジュールを改良し、特徴アライメントを改善する。 EFAMはさらに、提案されたERB(Enhanced Residual Block)を基本コンポーネントとして採用し、一方向のリカレントネットワークが整列した時間的特徴を集約して結果をよりよく再構築する。 モデル一般化と性能を改善するため,マルチ露光RAW入力を増強するためにBayerAug(BayerAug)戦略を用いる。 実験により,提案したIREANetは従来の手法と比較して最先端性能を示した。

In this paper, we address the Bracket Image Restoration and Enhancement (BracketIRE) task using a novel framework, which requires restoring a high-quality high dynamic range (HDR) image from a sequence of noisy, blurred, and low dynamic range (LDR) multi-exposure RAW inputs. To overcome this challenge, we present the IREANet, which improves the multiple exposure alignment and aggregation with a Flow-guide Feature Alignment Module (FFAM) and an Enhanced Feature Aggregation Module (EFAM). Specifically, the proposed FFAM incorporates the inter-frame optical flow as guidance to facilitate the deformable alignment and spatial attention modules for better feature alignment. The EFAM further employs the proposed Enhanced Residual Block (ERB) as a foundational component, wherein a unidirectional recurrent network aggregates the aligned temporal features to better reconstruct the results. To improve model generalization and performance, we additionally employ the Bayer preserving augmentation (BayerAug) strategy to augment the multi-exposure RAW inputs. Our experimental evaluations demonstrate that the proposed IREANet shows state-of-the-art performance compared with previous methods.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# 3DGen:AIによる、おそらく正しいバイナリフォーマットパーザの生成

3DGen: AI-Assisted Generation of Provably Correct Binary Format Parsers ( http://arxiv.org/abs/2404.10362v1 )

ライセンス: Link先を確認
Sarah Fakhoury, Markus Kuppe, Shuvendu K. Lahiri, Tahina Ramananandro, Nikhil Swamy, (参考訳) 特にプログラマがRFCの非公式な形式記述を低レベルのメモリアンセーフな言語で効率的に解析するロジックに書き起こす場合である。 何人かの研究者が、効率的なコードを抽出できるデータフォーマットの正式な仕様言語を提案している。 しかし、非公式な要件を形式的な仕様に抽出することは困難であり、その利点にもかかわらず、新しい形式言語は人々が学び、使うのが難しい。 本稿では,AIエージェントを用いて自然言語文書(RFC)やサンプル入力を3Dと呼ばれる言語でフォーマット仕様に変換する3DGenを提案する。 生成された仕様を理解し信頼するために、3DGenはシンボリックメソッドを使用して、外部のオラクルに対して検証可能なテストインプットを合成する。 シンボリックテスト生成は、複数の可算解の区別にも役立つ。 我々は、20のインターネット標準フォーマットで3DGenを評価し、AIエージェントが公式に認証されたCコードを非自明なスケールで生成する可能性を実証した。 重要なイネーブルは、AI出力を、自動化されたシンボリック分析が抽出可能なクラスに制限するために、ドメイン固有の言語を使用することである。

Improper parsing of attacker-controlled input is a leading source of software security vulnerabilities, especially when programmers transcribe informal format descriptions in RFCs into efficient parsing logic in low-level, memory unsafe languages. Several researchers have proposed formal specification languages for data formats from which efficient code can be extracted. However, distilling informal requirements into formal specifications is challenging and, despite their benefits, new, formal languages are hard for people to learn and use. In this work, we present 3DGen, a framework that makes use of AI agents to transform mixed informal input, including natural language documents (i.e., RFCs) and example inputs into format specifications in a language called 3D. To support humans in understanding and trusting the generated specifications, 3DGen uses symbolic methods to also synthesize test inputs that can be validated against an external oracle. Symbolic test generation also helps in distinguishing multiple plausible solutions. Through a process of repeated refinement, 3DGen produces a 3D specification that conforms to a test suite, and which yields safe, efficient, provably correct, parsing code in C. We have evaluated 3DGen on 20 Internet standard formats, demonstrating the potential for AI-agents to produce formally verified C code at a non-trivial scale. A key enabler is the use of a domain-specific language to limit AI outputs to a class for which automated, symbolic analysis is tractable.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# データ駆動型ディーゼル機関故障診断技術に関する調査研究

A Survey on Data-Driven Fault Diagnostic Techniques for Marine Diesel Engines ( http://arxiv.org/abs/2404.10363v1 )

ライセンス: Link先を確認
Ayah Youssef, Hassan Noura, Abderrahim El Amrani, El Mostafa El Adel, Mustapha Ouladsine, (参考訳) 船舶用ディーゼル機関の故障診断は, 船舶の安全と運転効率に不可欠であり, 船舶に不可欠なエンジンであり, 安全航行には信頼性の高い性能が不可欠である。 スウィフトの識別と故障の解決は、破壊を防ぎ、安全を高め、海における破滅的な失敗のリスクを低減するために不可欠である。 積極的故障診断は、タイムリーなメンテナンスを円滑に行い、ダウンタイムを最小化し、海洋ディーゼルエンジンの全体的な信頼性と持続性を保証する。 本稿では, 故障診断の重要性, サブシステム強調, 共通故障, 海洋ディーゼルエンジンの効率的な保守のためのデータ駆動型アプローチの最近の進歩について検討する。

Fault diagnosis in marine diesel engines is vital for maritime safety and operational efficiency.These engines are integral to marine vessels, and their reliable performance is crucial for safenavigation. Swift identification and resolution of faults are essential to prevent breakdowns,enhance safety, and reduce the risk of catastrophic failures at sea. Proactive fault diagnosisfacilitates timely maintenance, minimizes downtime, and ensures the overall reliability andlongevity of marine diesel engines. This paper explores the importance of fault diagnosis,emphasizing subsystems, common faults, and recent advancements in data-driven approachesfor effective marine diesel engine maintenance
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# グリーンインテリジェント通信のための無線データ知識グラフの学習方法と実験

Learning Wireless Data Knowledge Graph for Green Intelligent Communications: Methodology and Experiments ( http://arxiv.org/abs/2404.10365v1 )

ライセンス: Link先を確認
Yongming Huang, Xiaohu You, Hang Zhan, Shiwen He, Ningning Fu, Wei Xu, (参考訳) インテリジェント通信は、6Gネットワークの進化を形作る上で重要な役割を担っている。 グリーン通信システム内のネイティブ人工知能(AI)は、厳しいリアルタイム要求を満たす必要がある。 これを実現するには、軽量でリソース効率のよいAIモデルをデプロイする必要がある。 しかしながら、無線ネットワークは運用中に多数のデータフィールドとインジケータを生成するため、ネットワークAIモデルに重大な影響を与えるのはわずかである。 したがって、通信システムのリアルタイムインテリジェンスは、ネットワークAIモデルの性能に大きな影響を与える、小さなが重要なデータのセットに大きく依存する。 これらの課題は、革新的なアーキテクチャとソリューションの必要性を浮き彫りにしている。 本稿では,モバイルネットワークのインテリジェントな操作操作に知識グラフ(KG)の概念を統合することで,無線データKGの確立を実現する,PML(Pervasive Multi-level)ネイティブAIアーキテクチャを提案する。 無線データKGを利用して、無線通信ネットワークから収集された大規模で複雑なデータを特徴付け、様々なデータフィールド間の関係を分析する。 データフィールド関係の得られたグラフは、特定のアプリケーション要求に合わせて調整された機能データセットと呼ばれる、最小限で効果的なデータセットをオンデマンドで生成することを可能にする。 その結果、このアーキテクチャはAIトレーニング、推論、検証プロセスを強化するだけでなく、通信ネットワークのリソースの浪費やオーバーヘッドを大幅に削減する。 このアーキテクチャを実装するために、時空間異種グラフ注意ニューラルネットワークモデル(STREAM)と特徴データセット生成アルゴリズムを組み合わせた特定のソリューションを開発した。 提案アーキテクチャの有効性を検証する実験を行った。

Intelligent communications have played a pivotal role in shaping the evolution of 6G networks. Native artificial intelligence (AI) within green communication systems must meet stringent real-time requirements. To achieve this, deploying lightweight and resource-efficient AI models is necessary. However, as wireless networks generate a multitude of data fields and indicators during operation, only a fraction of them imposes significant impact on the network AI models. Therefore, real-time intelligence of communication systems heavily relies on a small but critical set of the data that profoundly influences the performance of network AI models. These challenges underscore the need for innovative architectures and solutions. In this paper, we propose a solution, termed the pervasive multi-level (PML) native AI architecture, which integrates the concept of knowledge graph (KG) into the intelligent operational manipulations of mobile networks, resulting in the establishment of a wireless data KG. Leveraging the wireless data KG, we characterize the massive and complex data collected from wireless communication networks and analyze the relationships among various data fields. The obtained graph of data field relations enables the on-demand generation of minimal and effective datasets, referred to as feature datasets, tailored to specific application requirements. Consequently, this architecture not only enhances AI training, inference, and validation processes but also significantly reduces resource wastage and overhead for communication networks. To implement this architecture, we have developed a specific solution comprising a spatio-temporal heterogeneous graph attention neural network model (STREAM) as well as a feature dataset generation algorithm. Experiments are conducted to validate the effectiveness of the proposed architecture.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# 自分自身をよく知る: 異なる差別的特徴学習はオープンセット認識を改善する

Know Yourself Better: Diverse Discriminative Feature Learning Improves Open Set Recognition ( http://arxiv.org/abs/2404.10370v1 )

ライセンス: Link先を確認
Jiawen Xu, (参考訳) オープンセット認識(OSR)は機械学習の重要な側面であり、推論中に新しいクラスを検出するという課題に対処する。 ディープラーニングの領域では、クローズドなデータセットで訓練されたニューラル分類器は、通常、新しいクラスを特定するのに苦労し、誤った予測に繋がる。 この問題に対処するため、様々なヒューリスティックな手法が提案され、「私は知らない」と表現することで不確実性を表現することができる。 しかし、これらの手法の基盤となるメカニズムについて限定的な調査が行われており、文献のギャップが残っている。 本稿では,特徴量の多様性に着目したオープンセット認識手法の解析を行う。 本研究は,多様な識別特徴の学習とOSR性能の向上との間に有意な相関関係があることを明らかにする。 この知見に基づいて,特徴多様性の利点を生かしたOSRアプローチを提案する。 本手法の有効性は,OSRテストベンチの厳密な評価により実証され,最先端の手法よりも大幅に向上した。

Open set recognition (OSR) is a critical aspect of machine learning, addressing the challenge of detecting novel classes during inference. Within the realm of deep learning, neural classifiers trained on a closed set of data typically struggle to identify novel classes, leading to erroneous predictions. To address this issue, various heuristic methods have been proposed, allowing models to express uncertainty by stating "I don't know." However, a gap in the literature remains, as there has been limited exploration of the underlying mechanisms of these methods. In this paper, we conduct an analysis of open set recognition methods, focusing on the aspect of feature diversity. Our research reveals a significant correlation between learning diverse discriminative features and enhancing OSR performance. Building on this insight, we propose a novel OSR approach that leverages the advantages of feature diversity. The efficacy of our method is substantiated through rigorous evaluation on a standard OSR testbench, demonstrating a substantial improvement over state-of-the-art methods.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# Arabo-berb{è}re の公用語に就て

Enjeux normatifs des TICE de l'enseignement des langues dans le contexte arabo-berb{è}re ( http://arxiv.org/abs/2404.10374v1 )

ライセンス: Link先を確認
Henri Hudrisier, Mokhtar Ben Henda, (参考訳) eラーニングは世界的な現象になりつつある。 アラビア語(またはアラビア方言)の学習、またはベルベルの1つまたは複数の変種を学ぶことは、非常に局所的な視点(例えばマグレブ語では)、またはディアスポラのより広い枠組み、あるいは世界の文脈においてより広い範囲で理解することができる(日本人やロシア人がアラビア語やベルベル語を学ぶ場合)。 遠隔学習のためのリソースは、国際的な文化的・言語的な文脈で作成され、使用されなければならない。 これは、そのような観点で作成されたリソースは、ISO / IEC JTC1SC36の一般的な標準フレームワークに対処すべきであり、また、この標準化インスタンスの範囲を超えていなければならないことを意味する。

E-learning is becoming a global phenomenon. Learning Arabic (or Arabic dialects), or learning one or several variants of Berber can be understood from a very local perspective (in the Maghreb for instance) or in the wider framework of the diaspora or even more broadly in a global world context (in case a Japanese or a Russian learns Arabic and Berber). Resources for distance learning must then be created and potentially used in any international cultural and linguistic context. This implies that the resources created for such perspective should cope with the general standards framework of the ISO / IEC JTC1SC36, and even beyond the scope of this standardization instance.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# 文脈感性照合によるDeFi脆弱性のハンティング

Hunting DeFi Vulnerabilities via Context-Sensitive Concolic Verification ( http://arxiv.org/abs/2404.10376v1 )

ライセンス: Link先を確認
Yepeng Ding, Arthur Gervais, Roger Wattenhofer, Hiroyuki Sato, (参考訳) 分散金融(DeFi)は、高可用性、透明性、改ざん防止といった魅力的な特徴によって、従来の集中型金融パラダイムに革命をもたらしている。 しかし、DeFiサービスをターゲットにした攻撃は、2017年から2022年までの80件の現実世界のDeFi事件の調査によって、DeFi市場を著しく傷つけています。 シンボル実行、モデルチェック、セマンティック分析、ファジィングに基づく既存のメソッドは、最もDeFi脆弱性タイプを特定するのに不足している。 この欠陥に対処するために,時間論理で定式化されたユーザ定義プロパティに基づいたDeFi脆弱性の自動検出手法であるCSCV(Context-Sensitive Concolic Verification)を提案する。 CSCVはコンテキストの構築と最適化を行い、コンコリック実行と連動して動的にコンテキストを運ぶ遷移システムを動的に構築する検証プロセスのガイドを行う。 さらに,実世界のDeFiサービス実験と定性比較によるCSCVの有効性を実証した。 実験の結果, CSCVの試作機は, 平均253.06秒で調査対象の脆弱性の76.25%を検出できた。

Decentralized finance (DeFi) is revolutionizing the traditional centralized finance paradigm with its attractive features such as high availability, transparency, and tamper-proofing. However, attacks targeting DeFi services have severely damaged the DeFi market, as evidenced by our investigation of 80 real-world DeFi incidents from 2017 to 2022. Existing methods, based on symbolic execution, model checking, semantic analysis, and fuzzing, fall short in identifying the most DeFi vulnerability types. To address the deficiency, we propose Context-Sensitive Concolic Verification (CSCV), a method of automating the DeFi vulnerability finding based on user-defined properties formulated in temporal logic. CSCV builds and optimizes contexts to guide verification processes that dynamically construct context-carrying transition systems in tandem with concolic executions. Furthermore, we demonstrate the effectiveness of CSCV through experiments on real-world DeFi services and qualitative comparison. The experiment results show that our CSCV prototype successfully detects 76.25% of the vulnerabilities from the investigated incidents with an average time of 253.06 seconds.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# CVPR 2024第2版FRCSynチャレンジ:合成データ時代の顔認識チャレンジ

Second Edition FRCSyn Challenge at CVPR 2024: Face Recognition Challenge in the Era of Synthetic Data ( http://arxiv.org/abs/2404.10378v1 )

ライセンス: Link先を確認
Ivan DeAndres-Tame, Ruben Tolosana, Pietro Melzi, Ruben Vera-Rodriguez, Minchul Kim, Christian Rathgeb, Xiaoming Liu, Aythami Morales, Julian Fierrez, Javier Ortega-Garcia, Zhizhou Zhong, Yuge Huang, Yuxi Mi, Shouhong Ding, Shuigeng Zhou, Shuai He, Lingzhi Fu, Heng Cong, Rongyu Zhang, Zhihong Xiao, Evgeny Smirnov, Anton Pimenov, Aleksei Grigorev, Denis Timoshenko, Kaleb Mesfin Asfaw, Cheng Yaw Low, Hao Liu, Chuyi Wang, Qing Zuo, Zhixiang He, Hatef Otroshi Shahreza, Anjith George, Alexander Unnervik, Parsa Rahimi, Sébastien Marcel, Pedro C. Neto, Marco Huber, Jan Niklas Kolf, Naser Damer, Fadi Boutros, Jaime S. Cardoso, Ana F. Sequeira, Andrea Atzori, Gianni Fenu, Mirko Marras, Vitomir Štruc, Jiang Yu, Zhangjie Li, Jichun Li, Weisong Zhao, Zhen Lei, Xiangyu Zhu, Xiao-Yu Zhang, Bernardo Biesseck, Pedro Vidal, Luiz Coelho, Roger Granada, David Menotti, (参考訳) 機械学習モデルのトレーニングにおいて、合成データが関連性を高めている。 これは主に、実際のデータ不足やクラス内の多様性、手動ラベリングで生成された時間とエラー、場合によってはプライバシーに関する懸念など、いくつかの要因によって動機付けられている。 本稿では,CVPR 2024で組織された第2回顔認識チャレンジ(FRCSyn)の概要について述べる。 FRCSynは、データプライバシの懸念、人口統計バイアス、新しいシナリオへの一般化、高齢化、ポーズのバリエーション、オクルージョンといった困難な状況におけるパフォーマンス制約など、現在の技術的制限に対処するために、顔認識における合成データの使用について調査することを目的としている。 第1版とは異なり、DCFace法とGANDiffFace法から合成されたデータは、顔認識システムを訓練することしかできず、この第2版では、参加者が新しい顔生成方法を探求できる新しいサブタスクを提案する。 第2回FRCSynチャレンジの結果は、提案された実験プロトコルとベンチマークと共に、顔認識への合成データの適用に大きく貢献した。

Synthetic data is gaining increasing relevance for training machine learning models. This is mainly motivated due to several factors such as the lack of real data and intra-class variability, time and errors produced in manual labeling, and in some cases privacy concerns, among others. This paper presents an overview of the 2nd edition of the Face Recognition Challenge in the Era of Synthetic Data (FRCSyn) organized at CVPR 2024. FRCSyn aims to investigate the use of synthetic data in face recognition to address current technological limitations, including data privacy concerns, demographic biases, generalization to novel scenarios, and performance constraints in challenging situations such as aging, pose variations, and occlusions. Unlike the 1st edition, in which synthetic data from DCFace and GANDiffFace methods was only allowed to train face recognition systems, in this 2nd edition we propose new sub-tasks that allow participants to explore novel face generative methods. The outcomes of the 2nd FRCSyn Challenge, along with the proposed experimental protocol and benchmarking contribute significantly to the application of synthetic data to face recognition.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# スタークプローブにおける非線形性による量子センシング

Nonlinearity-enhanced quantum sensing in Stark probes ( http://arxiv.org/abs/2404.10382v1 )

ライセンス: Link先を確認
Rozhin Yousefjani, Xingjian He, Angelo Carollo, Abolfazl Bayat, (参考訳) 非線形勾配場を多体系に応用したスターク系は、近年量子センシングに活用されている。 本稿では, 単粒子および多体相互作用系におけるスタークモデルのセンシング能力について検討し, 線形および非線形のスターク場の強度を推定する。 問題は自然に多パラメータ推定の文脈にある。 線形勾配場と非線形勾配場の両方の観点から系の位相図を決定し、スターク場が増加するにつれて、拡張された位相がどのように局所化されるかを示す。 また, 臨界指数を含む相転移の特性を, 合成有限サイズスケーリング解析により特徴づける。 興味深いことに、線形場と非線形場の両方を推定することで、超ハイゼンベルクスケーリングを実現することができる。 実際、センシング精度のスケーリング指数は、非線形性が推定精度を高めることを示す非線形性指数に直接比例する。 最後に, 調製時間のコストを考慮すると, 超ハイゼンベルクスケーリングの精度がまだ高いことを示す。

Stark systems in which a linear gradient field is applied across a many-body system have recently been harnessed for quantum sensing. Here, we explore sensing capacity of Stark models, in both single-particle and many-body interacting systems, for estimating the strength of both linear and nonlinear Stark fields. The problem naturally lies in the context of multi-parameter estimation. We determine the phase diagram of the system in terms of both linear and nonlinear gradient fields showing how the extended phase turns into a localized one as the Stark fields increase. We also characterize the properties of the phase transition, including critical exponents, through a comprehesive finite-size scaling analysis. Interestingly, our results show that the estimation of both the linear and the nonlinear fields can achieve super-Heisenberg scaling. In fact, the scaling exponent of the sensing precision is directly proportional to the nonlinearity exponent which shows that nonlinearity enhances the estimation precision. Finally, we show that even after considering the cost of the preparation time the sensing precision still reveals super-Heisenberg scaling.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# 2段階法による手話のスコア学習

Learning to Score Sign Language with Two-stage Method ( http://arxiv.org/abs/2404.10383v1 )

ライセンス: Link先を確認
Wen Hongli, Xu Yang, (参考訳) 近年,人間の行動認識とパフォーマンス評価が熱い研究課題となっている。 認識問題は手話の分野では成熟した解法となっているが、過去のパフォーマンス分析における研究は、手話教育デジタル化の重要な部分であるスコアアセスメントを見越して、競争力のあるスポーツと医療訓練に焦点を合わせてきた。 本稿では、既存の性能評価技術を分析し、2段階手話性能評価パイプラインを提案する。 分析の結果,第1段階での再構築作業の選択は,より表現力のある機能を提供し,スムースな手法を用いることで,効果的な評価基準を提供することができた。 実験により,本手法は,エンドツーエンド評価と比較して,優れたスコアフィードバック機構とプロフェッショナル評価との整合性を示した。

Human action recognition and performance assessment have been hot research topics in recent years. Recognition problems have mature solutions in the field of sign language, but past research in performance analysis has focused on competitive sports and medical training, overlooking the scoring assessment ,which is an important part of sign language teaching digitalization. In this paper, we analyze the existing technologies for performance assessment and adopt methods that perform well in human pose reconstruction tasks combined with motion rotation embedded expressions, proposing a two-stage sign language performance evaluation pipeline. Our analysis shows that choosing reconstruction tasks in the first stage can provide more expressive features, and using smoothing methods can provide an effective reference for assessment. Experiments show that our method provides good score feedback mechanisms and high consistency with professional assessments compared to end-to-end evaluations.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# 効率的な知識経路の推論:知識グラフガイドによるドメイン問合せ回答のための大規模言語モデル

Reasoning on Efficient Knowledge Paths:Knowledge Graph Guides Large Language Model for Domain Question Answering ( http://arxiv.org/abs/2404.10384v1 )

ライセンス: Link先を確認
Yuqi Wang, Boran Jiang, Yi Luo, Dawei He, Peng Cheng, Liangcai Gao, (参考訳) GPT3.5, GPT4, LLAMA2のような大規模言語モデル(LLM)は驚くほどよく機能し、多くのタスクにおいて人間の専門家より優れています。 しかし、多くのドメイン固有の評価では、これらのLSMは、関連するコーパスのトレーニングが不十分なため、幻覚に悩まされることが多い。 さらに,LLMはオープンソースではない,高品質なドメイン命令の構築が難しい,といった問題に直面している。 したがって、知識グラフのような構造化知識データベースは、LLMのドメイン背景知識をより良く提供し、LLMの推論と分析機能をフル活用することができる。 以前の研究では、LLMは質問を通じて部分グラフを取得する際に、現在の三重項が部分グラフに含めるのに適しているかどうかを判断するために何度も呼ばれていた。 特に、マルチホップ推論パスを必要とする問題では、LLMへの頻繁な呼び出しは、多くのコンピューティングパワーを消費する。 さらに、推論パスを選択すると、各ステップに一度 LLM が呼び出され、ステップの1つが誤って選択されると、次のステップでエラーが蓄積される。 本稿では,LLMに基づくKGから推論経路を選択するパイプラインの統合と最適化を行い,LLMへの依存性を低減する。 さらに,思考の連鎖(CoT)とページランクに基づいて,回答を最も含む可能性のある経路を返却する,シンプルで効果的なサブグラフ検索手法を提案する。 我々は、GenMedGPT-5k[14]、WebQuestions [2]、CMCQA [21]という3つのデータセットで実験を行う。 最後に、RoK は LLM 呼び出しが少ないことで、以前の SOTA モデルと同じ結果が得られることを示した。

Large language models (LLMs), such as GPT3.5, GPT4 and LLAMA2 perform surprisingly well and outperform human experts on many tasks. However, in many domain-specific evaluations, these LLMs often suffer from hallucination problems due to insufficient training of relevant corpus. Furthermore, fine-tuning large models may face problems such as the LLMs are not open source or the construction of high-quality domain instruction is difficult. Therefore, structured knowledge databases such as knowledge graph can better provide domain back- ground knowledge for LLMs and make full use of the reasoning and analysis capabilities of LLMs. In some previous works, LLM was called multiple times to determine whether the current triplet was suitable for inclusion in the subgraph when retrieving subgraphs through a question. Especially for the question that require a multi-hop reasoning path, frequent calls to LLM will consume a lot of computing power. Moreover, when choosing the reasoning path, LLM will be called once for each step, and if one of the steps is selected incorrectly, it will lead to the accumulation of errors in the following steps. In this paper, we integrated and optimized a pipeline for selecting reasoning paths from KG based on LLM, which can reduce the dependency on LLM. In addition, we propose a simple and effective subgraph retrieval method based on chain of thought (CoT) and page rank which can returns the paths most likely to contain the answer. We conduct experiments on three datasets: GenMedGPT-5k [14], WebQuestions [2], and CMCQA [21]. Finally, RoK can demonstrate that using fewer LLM calls can achieve the same results as previous SOTAs models.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# HPCシステムにおける機械学習応用におけるI/O:360度サーベイ

I/O in Machine Learning Applications on HPC Systems: A 360-degree Survey ( http://arxiv.org/abs/2404.10386v1 )

ライセンス: Link先を確認
Noah Lewis, Jean Luca Bez, Suren Byna, (参考訳) 高性能コンピューティング(HPC)システムは分散ワークロードの管理に優れており、人工知能(AI)への関心が高まり、機械学習(ML)モデルのトレーニングと推論の高速化に対する需要が高まっている。 過去にHPC I/Oの研究は、モデリングおよびシミュレーションアプリケーションのための基礎となるストレージシステムの最適化と結果をチェックポイントすることに集中しており、書き込みが支配的なI/O操作となっている。 これらのアプリケーションは通常、シミュレーションや実験によって書かれたデータの大部分にアクセスする。 対照的にMLワークロードは、多数のランダムファイルにまたがる小さなI/O読み取りを実行する。 このI/Oアクセスパターンの変化は、HPCストレージシステムにいくつかの課題をもたらす。 本稿では,HPCシステム上でのMLアプリケーションにおけるI/Oと,2019年から2024年までの6年間のタイムウインドウ内での文学を対象とした調査を行う。 本稿では、MLの共通フェーズの概要、利用可能なプロファイラとベンチマークのレビュー、MLトレーニング中に発生するI/Oパターンの検証、現代のMLフレームワークで使用されているI/O最適化の探索、最近の文献における提案、そして最後に、さらなるR&Dを必要とするギャップについて述べる。 我々は、MLアプリケーションによるデータアクセスに使用される一般的なプラクティスを要約し、さらなる研究開発を引き起こす可能性のある研究ギャップを明らかにすることを目指している。

High-Performance Computing (HPC) systems excel in managing distributed workloads, and the growing interest in Artificial Intelligence (AI) has resulted in a surge in demand for faster methods of Machine Learning (ML) model training and inference. In the past, research on HPC I/O focused on optimizing the underlying storage system for modeling and simulation applications and checkpointing the results, causing writes to be the dominant I/O operation. These applications typically access large portions of the data written by simulations or experiments. ML workloads, in contrast, perform small I/O reads spread across a large number of random files. This shift of I/O access patterns poses several challenges to HPC storage systems. In this paper, we survey I/O in ML applications on HPC systems, and target literature within a 6-year time window from 2019 to 2024. We provide an overview of the common phases of ML, review available profilers and benchmarks, examine the I/O patterns encountered during ML training, explore I/O optimizations utilized in modern ML frameworks and proposed in recent literature, and lastly, present gaps requiring further R&D. We seek to summarize the common practices used in accessing data by ML applications and expose research gaps that could spawn further R&D.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# データセット・表現・説明評価のためのCNNに基づく説明文アンサンブル

CNN-based explanation ensembling for dataset, representation and explanations evaluation ( http://arxiv.org/abs/2404.10387v1 )

ライセンス: Link先を確認
Weronika Hryniewska-Guzik, Luca Longo, Przemysław Biecek, (参考訳) 説明可能な人工知能は、医療、金融、自動運転車といった高度な領域で複雑なディープラーニングモデルが広く使われているため、大きな注目を集めている。 しかし、異なる説明がしばしばモデルの振る舞いの異なる側面を示す。 本研究では,畳み込みモデルを用いた深層分類モデルによる説明文の要約の可能性について検討する。 実験と分析を通じて、モデル行動のより一貫性と信頼性のあるパターンを明らかにするための説明を組み合わせることの意味を考察し、モデルが学習した表現を評価する可能性について考察する。 提案手法により,あるクラスにおける画像の表現不足の問題を明らかにすることができる。 さらに,特徴量削減などの他の側面として,原画像をその説明に置き換えることで,機密情報の削除を図っている。 本研究では,Quantusライブラリから慎重に選択した評価指標を用いて,個々の説明に比べて,局所性と忠実性において優れた評価性能を示した。

Explainable Artificial Intelligence has gained significant attention due to the widespread use of complex deep learning models in high-stake domains such as medicine, finance, and autonomous cars. However, different explanations often present different aspects of the model's behavior. In this research manuscript, we explore the potential of ensembling explanations generated by deep classification models using convolutional model. Through experimentation and analysis, we aim to investigate the implications of combining explanations to uncover a more coherent and reliable patterns of the model's behavior, leading to the possibility of evaluating the representation learned by the model. With our method, we can uncover problems of under-representation of images in a certain class. Moreover, we discuss other side benefits like features' reduction by replacing the original image with its explanations resulting in the removal of some sensitive information. Through the use of carefully selected evaluation metrics from the Quantus library, we demonstrated the method's superior performance in terms of Localisation and Faithfulness, compared to individual explanations.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# オフライン強化学習のためのオフライン軌道一般化

Offline Trajectory Generalization for Offline Reinforcement Learning ( http://arxiv.org/abs/2404.10393v1 )

ライセンス: Link先を確認
Ziqi Zhao, Zhaochun Ren, Liu Yang, Fajie Yuan, Pengjie Ren, Zhumin Chen, jun Ma, Xin Xin, (参考訳) オフライン強化学習(RL)は、以前に収集されたトラジェクトリの静的データセットからポリシーを学ぶことを目的としている。 既存のオフラインRLの方法は、学習したポリシーをオフラインデータのサポートに制約するか、モデルベースの仮想環境を使用してシミュレーションされたロールアウトを生成する。 しかし、これらの方法は苦しむ。 一 目に見えない状態への一般化が乏しいこと、及び (II)低品質ロールアウトシミュレーションによる自明な改善。 本稿では,オフライン強化学習(OTTO)のための世界変換器によるオフライン軌道一般化を提案する。 具体的には、カジュアルトランスフォーマー、すなわちワールドトランスフォーマーを使用して、状態ダイナミクスと即時報酬を予測する。 次に, オフラインデータを摂動することで, 逆向きの軌道シミュレーションを生成するために, ワールドトランスフォーマーを利用する4つの戦略を提案する。 最後に、オフラインデータとシミュレーションデータとを併用して、オフラインRLアルゴリズムをトレーニングする。 OTTOはプラグインモジュールとして機能し、既存のオフラインRLメソッドと統合して、トランスフォーマーのより優れた一般化機能と高遅延データ拡張を実現する。 D4RLベンチマークデータセットで広範な実験を行い、OTTOが最先端のオフラインRL法よりも大幅に優れていることを確認した。

Offline reinforcement learning (RL) aims to learn policies from static datasets of previously collected trajectories. Existing methods for offline RL either constrain the learned policy to the support of offline data or utilize model-based virtual environments to generate simulated rollouts. However, these methods suffer from (i) poor generalization to unseen states; and (ii) trivial improvement from low-qualified rollout simulation. In this paper, we propose offline trajectory generalization through world transformers for offline reinforcement learning (OTTO). Specifically, we use casual Transformers, a.k.a. World Transformers, to predict state dynamics and the immediate reward. Then we propose four strategies to use World Transformers to generate high-rewarded trajectory simulation by perturbing the offline data. Finally, we jointly use offline data with simulated data to train an offline RL algorithm. OTTO serves as a plug-in module and can be integrated with existing offline RL methods to enhance them with better generalization capability of transformers and high-rewarded data augmentation. Conducting extensive experiments on D4RL benchmark datasets, we verify that OTTO significantly outperforms state-of-the-art offline RL methods.
翻訳日:2024-04-17 17:33:19 公開日:2024-04-16
# Portrait3D: ピラミッド表現とGANによるテキストガイドによる高画質3D画像生成

Portrait3D: Text-Guided High-Quality 3D Portrait Generation Using Pyramid Representation and GANs Prior ( http://arxiv.org/abs/2404.10394v1 )

ライセンス: Link先を確認
Yiqian Wu, Hao Xu, Xiangjun Tang, Xien Chen, Siyu Tang, Zhebin Zhang, Chen Li, Xiaogang Jin, (参考訳) 既存のニューラルネットワークベースのテキスト・ツー・3D画像生成手法は、人間の幾何学的先行と拡散モデルを用いてガイダンスを得るのが一般的である。 しかし、幾何学情報のみに依存すると、ヤヌス問題、過飽和、過平滑化といった問題が発生する。 上記の課題を克服するテキスト・ツー・3D画像生成を実現するために,新しい共同幾何学的外観を持つニューラルレンダリングに基づく新しいフレームワークであるPortrait3Dを提案する。 これを実現するために、3DポートレートGAN-Pyramidという3Dポートレートジェネレータを頑健な事前訓練を行う。 このジェネレータは360{\deg}の標準3D画像を生成することができ、その後の拡散ベースの生成プロセスの出発点となる。 多くの3次元GANで一般的に使われている特徴マップベース3D表現の高周波情報による「グリッド状」アーティファクトを緩和するため、新しいピラミッドトリグリッド3D表現を3DPortraitGAN-Pyramidに統合する。 テキストから3D画像を生成するために,まず,予め訓練した3DPortraitGAN-Pyramidの潜伏空間に,与えられたプロンプトに沿ったランダムに生成された画像を投影する。 得られた潜在コードは、ピラミッドトリグリッドの合成に使用される。 得られたピラミッドトリグリッドから, 拡散モデルの知識をピラミッドトリグリッドに蒸留するために, スコア蒸留法を用いて実験を行った。 その後、拡散モデルを用いて3次元像の描画画像を精細化し、これらの精細画像をトレーニングデータとして利用し、ピラミッド・トリグリッドをさらに最適化し、非現実的な色や非自然的アーティファクトの問題を効果的に除去する。 実験の結果,Portrait3Dはプロンプトに合わせたリアルで高品質で標準的な3D肖像画を制作できることがわかった。

Existing neural rendering-based text-to-3D-portrait generation methods typically make use of human geometry prior and diffusion models to obtain guidance. However, relying solely on geometry information introduces issues such as the Janus problem, over-saturation, and over-smoothing. We present Portrait3D, a novel neural rendering-based framework with a novel joint geometry-appearance prior to achieve text-to-3D-portrait generation that overcomes the aforementioned issues. To accomplish this, we train a 3D portrait generator, 3DPortraitGAN-Pyramid, as a robust prior. This generator is capable of producing 360{\deg} canonical 3D portraits, serving as a starting point for the subsequent diffusion-based generation process. To mitigate the "grid-like" artifact caused by the high-frequency information in the feature-map-based 3D representation commonly used by most 3D-aware GANs, we integrate a novel pyramid tri-grid 3D representation into 3DPortraitGAN-Pyramid. To generate 3D portraits from text, we first project a randomly generated image aligned with the given prompt into the pre-trained 3DPortraitGAN-Pyramid's latent space. The resulting latent code is then used to synthesize a pyramid tri-grid. Beginning with the obtained pyramid tri-grid, we use score distillation sampling to distill the diffusion model's knowledge into the pyramid tri-grid. Following that, we utilize the diffusion model to refine the rendered images of the 3D portrait and then use these refined images as training data to further optimize the pyramid tri-grid, effectively eliminating issues with unrealistic color and unnatural artifacts. Our experimental results show that Portrait3D can produce realistic, high-quality, and canonical 3D portraits that align with the prompt.
翻訳日:2024-04-17 17:23:31 公開日:2024-04-16
# 効率的なラベレス自動訓練戦略を用いた携帯電話による分散型環境温度測定システム

A Phone-based Distributed Ambient Temperature Measurement System with An Efficient Label-free Automated Training Strategy ( http://arxiv.org/abs/2404.10401v1 )

ライセンス: Link先を確認
Dayin Chen, Xiaodan Shi, Haoran Zhang, Xuan Song, Dongxiao Zhang, Yuntian Chen, Jinyue Yan, (参考訳) 建物のエネルギー効率の向上は、屋内の環境温度のモニタリングに大きく依存している。 従来の温度測定技術の潜在的な限界は、スマートフォンの非存在とともに、携帯電話による環境温度推定技術の探究に研究者の注意を向けている。 それでも、この技術の実用的な実装を実現するために、多くの障害に対処する必要がある。 本研究では,屋内空間の各小面積における環境温度を正確に測定する分散電話を用いた環境温度推定システムを提案する。 さらに、新たに追加された携帯電話ごとに新しい推定モデルをトレーニングするための、安全で効率的で費用効率のよいトレーニング戦略を提供しており、ラベル付きデータの手作業による収集は不要である。 この革新的なトレーニング戦略は、5つのデータポイントしか持たない新機種の高性能な推定モデルが得られる。 一方,クラウドソーシングにより,新たに収集したすべてのデータに対して,正確な推測ラベルが自動的に提供される。 また,本研究の終了時に,フェデレーション学習をシステムに統合し,プライバシ保護を確保する可能性についても強調する。 本研究は,電話による環境温度測定の実用化を推進し,ビルの省エネ活動を促進する可能性があると考えている。

Enhancing the energy efficiency of buildings significantly relies on monitoring indoor ambient temperature. The potential limitations of conventional temperature measurement techniques, together with the omnipresence of smartphones, have redirected researchers' attention towards the exploration of phone-based ambient temperature estimation technology. Nevertheless, numerous obstacles remain to be addressed in order to achieve a practical implementation of this technology. This study proposes a distributed phone-based ambient temperature estimation system which enables collaboration between multiple phones to accurately measure the ambient temperature in each small area of an indoor space. Besides, it offers a secure, efficient, and cost-effective training strategy to train a new estimation model for each newly added phone, eliminating the need for manual collection of labeled data. This innovative training strategy can yield a high-performing estimation model for a new phone with just 5 data points, requiring only a few iterations. Meanwhile, by crowdsourcing, our system automatically provides accurate inferred labels for all newly collected data. We also highlight the potential of integrating federated learning into our system to ensure privacy protection at the end of this study. We believe this study has the potential to advance the practical application of phone-based ambient temperature measurement, facilitating energy-saving efforts in buildings.
翻訳日:2024-04-17 17:23:31 公開日:2024-04-16
# Sisu: 完全なEthereumノードのための分散型の信頼性のないブリッジ

Sisu: Decentralized Trustless Bridge For Full Ethereum Node ( http://arxiv.org/abs/2404.10404v1 )

ライセンス: Link先を確認
Billy Pham, Huy Nguyen, (参考訳) 本稿では,再帰的SNARK,分散一般GKR,Groth16を用いてEthereum完全ノードを証明するための詳細なアプローチと実装を提案する。 私たちのプロトコルの名前はSisuで、アーキテクチャはzkBridgeの分散Virgoをベースとしています。 署名集約の証明に加えて、Ethereumフルノードの証明における2つの難しい問題に対する解決策を提供する。 1) 公開鍵は,前のビーコン状態の下で有効である。 2) すべての公開鍵はペアごとに異なる。 我々のソリューションは、労働者間通信を必要としないので、zkBridgeと比較して、労働者間ネットワーク全体のトラフィックをテラバイトのデータからゼロに削減します。 このアプローチは、zkBridgeと比較して、新興の分散証明市場に適合し、より分散化されています。 私たちの設計は並列性が高く、ほとんどの部分でGPU上で実行可能です。

In this paper, we present a detailed approach and implementation to prove Ethereum full node using recursive SNARK, distributed general GKR and Groth16. Our protocol's name is Sisu whose architecture is based on distributed Virgo in zkBridge with some major improvements. Besides proving signature aggregation, we provide solutions to 2 hard problems in proving Ethereum full node: 1) any public key is valid under previous beacon state and 2) all public keys are pairwise distinct. Our solution does not require worker-to-worker communication and therefore reduce total worker-to-worker network traffic from terabyte of data to zero compared to zkBridge. This makes our approach suitable for emerging distributed prover markets and more decentralized compared to zkBridge. Our design is highly parallelable and capable of running on GPU for most parts.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# 半監督型医用画像認識における自己監督型BYOLの統合

Integration of Self-Supervised BYOL in Semi-Supervised Medical Image Recognition ( http://arxiv.org/abs/2404.10405v1 )

ライセンス: Link先を確認
Hao Feng, Yuanzhe Jia, Ruijia Xu, Mukesh Prasad, Ali Anaissi, Ali Braytee, (参考訳) 画像認識技術は、特に医学的文脈において、豊富なラベル付きデータに大きく依存している。 ラベル付きデータ取得に関わる課題に対処するため、特に注釈付きデータに制限のあるシナリオにおいて、自己教師付き学習と半教師付き学習が顕著になった。 本稿では,自己教師付き学習を半教師付きモデルに統合し,医用画像認識を向上する,革新的なアプローチを提案する。 BYOL法を用いてラベルなしデータの事前学習を開始する。 その後、擬似ラベル付きおよびラベル付きデータセットをマージしてニューラルネットワーク分類器を構築し、反復的な微調整によって精錬する。 3つの異なるデータセットに対する実験結果から,本手法はラベルのないデータを最適に活用し,医用画像認識の精度で既存の手法より優れていることが示された。

Image recognition techniques heavily rely on abundant labeled data, particularly in medical contexts. Addressing the challenges associated with obtaining labeled data has led to the prominence of self-supervised learning and semi-supervised learning, especially in scenarios with limited annotated data. In this paper, we proposed an innovative approach by integrating self-supervised learning into semi-supervised models to enhance medical image recognition. Our methodology commences with pre-training on unlabeled data utilizing the BYOL method. Subsequently, we merge pseudo-labeled and labeled datasets to construct a neural network classifier, refining it through iterative fine-tuning. Experimental results on three different datasets demonstrate that our approach optimally leverages unlabeled data, outperforming existing methods in terms of accuracy for medical image recognition.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# 視覚変換器のモデル圧縮と高速化に関する総合的調査

Comprehensive Survey of Model Compression and Speed up for Vision Transformers ( http://arxiv.org/abs/2404.10407v1 )

ライセンス: Link先を確認
Feiyang Chen, Ziqian Luo, Lisang Zhou, Xueting Pan, Ying Jiang, (参考訳) ViT(Vision Transformers)はコンピュータビジョンのパラダイムシフトであり、様々なタスクにおける最先端モデルよりも優れています。 しかし、それらの実践的な展開は、高い計算量とメモリ要求によって妨げられる。 本研究は, 定量化, 低ランク近似, 知識蒸留, プルーニングの4つの主要なモデル圧縮技術を評価することで, 課題に対処する。 資源制約環境に対するViTの最適化におけるこれらの手法の有効性とそれらの組み合わせの有効性を定量的に分析・比較する。 総合的な実験的評価により,これらの手法はモデル精度と計算効率のバランスの取れた妥協を助長し,エッジコンピューティングデバイスにおける幅広い応用の道を開いた。

Vision Transformers (ViT) have marked a paradigm shift in computer vision, outperforming state-of-the-art models across diverse tasks. However, their practical deployment is hampered by high computational and memory demands. This study addresses the challenge by evaluating four primary model compression techniques: quantization, low-rank approximation, knowledge distillation, and pruning. We methodically analyze and compare the efficacy of these techniques and their combinations in optimizing ViTs for resource-constrained environments. Our comprehensive experimental evaluation demonstrates that these methods facilitate a balanced compromise between model accuracy and computational efficiency, paving the way for wider application in edge computing devices.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# セマンティック顔画像合成のための逆同一性注入法

Adversarial Identity Injection for Semantic Face Image Synthesis ( http://arxiv.org/abs/2404.10408v1 )

ライセンス: Link先を確認
Giuseppe Tarollo, Tomaso Fontanini, Claudio Ferrari, Guido Borghi, Andrea Prati, (参考訳) 近年、ディープラーニングモデルは画像生成のタスクにおいて驚くほどのパフォーマンスに達している。 多くの文献が顔の生成と編集のタスクに対処しています。 ほとんどのシステムは優れた視覚生成品質に達したが、入力対象の同一性を維持するのに依然として困難に直面している。 セマンティック画像合成(SIS)手法は, セマンティックなセグメンテーションマスクに条件付き画像を生成することを目的としており, 入力対象の認識されたアイデンティティを保存することが主な関心事ではないにもかかわらず, 最も有望な手法である。 そこで本稿では,顔画像生成におけるアイデンティティ保存の問題点を考察し,顔のアイデンティティ,スタイル,セマンティックな特徴をマージするクロスアテンション機構を利用したSISアーキテクチャを提案する。 実験結果から,提案手法は識別情報の保存に適しただけでなく,顔に第2の識別情報を隠蔽する顔認識攻撃にも有効であることが判明した。

Nowadays, deep learning models have reached incredible performance in the task of image generation. Plenty of literature works address the task of face generation and editing, with human and automatic systems that struggle to distinguish what's real from generated. Whereas most systems reached excellent visual generation quality, they still face difficulties in preserving the identity of the starting input subject. Among all the explored techniques, Semantic Image Synthesis (SIS) methods, whose goal is to generate an image conditioned on a semantic segmentation mask, are the most promising, even though preserving the perceived identity of the input subject is not their main concern. Therefore, in this paper, we investigate the problem of identity preservation in face image generation and present an SIS architecture that exploits a cross-attention mechanism to merge identity, style, and semantic features to generate faces whose identities are as similar as possible to the input ones. Experimental results reveal that the proposed method is not only suitable for preserving the identity but is also effective in the face recognition adversarial attack, i.e. hiding a second identity in the generated faces.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# スケーラブルなストリーム型アクティブ蒸留のためのカメラクラスタリング

Camera clustering for scalable stream-based active distillation ( http://arxiv.org/abs/2404.10411v1 )

ライセンス: Link先を確認
Dani Manjah, Davide Cacciarelli, Christophe De Vleeschouwer, Benoit Macq, (参考訳) 本稿では,自己学習技術と知識蒸留技術を用いて,映像オブジェクト検出のための効率的な軽量モデルを構築するためのスケーラブルなフレームワークを提案する。 ビデオストリームからのトレーニング画像の理想的な選択方法と,多数のカメラ間でのモデル共有の有効性について検討する。 カメラクラスタリング手法を提唱することで、蒸留データセットを増強しながら、トレーニングに必要なモデルの数を減らしたいと考えている。 これらの結果は、適切なカメラクラスタリングが蒸留されたモデルの精度を顕著に増幅し、それぞれのカメラに異なるモデルを採用する方法論や、集約されたカメラデータに基づいて訓練された普遍的なモデルを取り除いたことを裏付けている。

We present a scalable framework designed to craft efficient lightweight models for video object detection utilizing self-training and knowledge distillation techniques. We scrutinize methodologies for the ideal selection of training images from video streams and the efficacy of model sharing across numerous cameras. By advocating for a camera clustering methodology, we aim to diminish the requisite number of models for training while augmenting the distillation dataset. The findings affirm that proper camera clustering notably amplifies the accuracy of distilled models, eclipsing the methodologies that employ distinct models for each camera or a universal model trained on the aggregate camera data.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# VDTuner:ベクトルデータ管理システムのパフォーマンスチューニングを自動化する

VDTuner: Automated Performance Tuning for Vector Data Management Systems ( http://arxiv.org/abs/2404.10413v1 )

ライセンス: Link先を確認
Tiannuo Yang, Wen Hu, Wangqi Peng, Yusen Li, Jianguo Li, Gang Wang, Xiaoguang Liu, (参考訳) ベクトルデータ管理システム(VDMS)は、大規模情報検索や大規模言語モデルのような機械学習システムにおいて、必須の基盤となっている。 類似検索の効率性と柔軟性を高めるため、VDMSは多くの調整可能なインデックスパラメータとユーザが指定できるシステムパラメータを公開している。 しかし,VDMSの特性から,VDMSの自動パフォーマンスチューニングにはいくつかの重要な課題があり,既存の自動チューニング手法ではうまく対応できない。 本稿では,VDMSのための学習に基づく自動パフォーマンスチューニングフレームワークであるVDTunerを紹介する。 VDTunerは、複雑な多次元パラメータ空間を事前の知識を必要とせずに効率的に探索することで、VDMSに関連する課題を克服する。 さらに、検索速度とリコールレートのバランスが良く、最適な設定を提供できる。 大規模な評価では、VDTunerはデフォルト設定に比べてVDMSの性能を著しく向上させ(検索速度14.12%、リコールレート186.38%)、最先端のベースライン(チューニング時間では最大3.57倍)よりも効率的である。 さらに、VDTunerは、特定のユーザの好みやコストを意識した最適化目標に対してスケーラブルである。 VDTunerはhttps://github.com/tiannuo-yang/VDTuner.comで公開されている。

Vector data management systems (VDMSs) have become an indispensable cornerstone in large-scale information retrieval and machine learning systems like large language models. To enhance the efficiency and flexibility of similarity search, VDMS exposes many tunable index parameters and system parameters for users to specify. However, due to the inherent characteristics of VDMS, automatic performance tuning for VDMS faces several critical challenges, which cannot be well addressed by the existing auto-tuning methods. In this paper, we introduce VDTuner, a learning-based automatic performance tuning framework for VDMS, leveraging multi-objective Bayesian optimization. VDTuner overcomes the challenges associated with VDMS by efficiently exploring a complex multi-dimensional parameter space without requiring any prior knowledge. Moreover, it is able to achieve a good balance between search speed and recall rate, delivering an optimal configuration. Extensive evaluations demonstrate that VDTuner can markedly improve VDMS performance (14.12% in search speed and 186.38% in recall rate) compared with default setting, and is more efficient compared with state-of-the-art baselines (up to 3.57 times faster in terms of tuning time). In addition, VDTuner is scalable to specific user preference and cost-aware optimization objective. VDTuner is available online at https://github.com/tiannuo-yang/VDTuner.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# テーパーされたポールトラップに関する総合的研究:デザインから潜在的な応用まで

A Comprehensive Study on A Tapered Paul Trap: From Design to Potential Applications ( http://arxiv.org/abs/2404.10415v1 )

ライセンス: Link先を確認
Bo Deng, Moritz Göb, Max Masuhr, Johannes Roßnagel, Georg Jacob, Daqing Wang, Kilian Singer, (参考訳) 本稿では, 先端電極の対称軸に高周波電極が傾斜しているテーパポールトラップについて述べる。 この構成により、このトラップに閉じ込められた荷電粒子は、その半径方向の自由度と軸方向の自由度が結合される。 同じ設計で単一原子熱エンジンを実験的に実現し、ゼプトニュートン力の増幅が実現された。 本稿では,このようなイオントラップの設計,実装,特性について詳述する。 このシステムはイオンの動きに対する高いレベルの制御を提供する。 その新しい特徴は、量子熱力学、量子センシング、量子情報といった分野への応用を約束するものである。

We present a tapered Paul trap whose radio frequency electrodes are inclined to the symmetric axis of the endcap electrodes, resulting in a funnel-shaped trapping potential. With this configuration, a charged particle confined in this trap has its radial degrees of freedom coupled to that of the axial direction. The same design was successfully used to experimentally realize a single-atom heat engine, and with this setup amplification of zeptonewton forces was implemented. In this paper, we show the design, implementation, and characterization of such an ion trap in detail. This system offers a high level of control over the ion's motion. Its novel features promise applications in the field of quantum thermodynamics, quantum sensing, and quantum information.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# 多文書科学要約のためのランク付き複数の候補からの教示情報の分離

Disentangling Instructive Information from Ranked Multiple Candidates for Multi-Document Scientific Summarization ( http://arxiv.org/abs/2404.10416v1 )

ライセンス: Link先を確認
Pancheng Wang, Shasha Li, Dong Li, Kehan Long, Jintao Tang, Ting Wang, (参考訳) 複数のトピック関連科学論文を簡潔で簡潔な要約に自動で凝縮する手法は、MDSS(Multi-Document Scientific Summarization)と呼ばれる。 現在、一般的に使われている抽象MDSS法は、柔軟で一貫性のある要約を生成することができるが、グローバル情報を扱うのが困難であり、復号時にガイダンスが欠如しているため、より優れた要約を生成することは困難である。 本稿では,これら2つの欠点を解消するために,文書集合のグローバル情報と要約候補からのガイダンスを活用して要約候補をMDSSに導入し,復号プロセスのガイドを行う。 第一に、サマリ候補は、肯定的な視点と否定的な視点の両方から、インストラクティブな情報を提供することができ、第二に、複数の選択肢から高品質な候補を選択することは、より良いサマリを生み出すのに寄与します。 本研究は,MDSS におけるランク付き候補 (DIR) からのインストラクティブ情報を識別する,要約型候補融合フレームワークを提案する。 具体的には、DIRはまず、複数の候補に対して、高い品質の候補を選択するために、特殊なペアワイズ比較手法を使用する。 次に、DIRは、要約候補の命令情報を条件変分オートエンコーダを用いて正および負の潜伏変数に分解する。 これらの変数はデコーダにさらに組み込まれ、生成をガイドする。 提案手法は,3種類のトランスフォーマーモデルと3種類の候補を用いて評価し,自動および人為的評価による顕著な性能改善を一貫して観察する。 さらに,グローバルな情報処理や復号性向上におけるモデルの有効性について検討した。

Automatically condensing multiple topic-related scientific papers into a succinct and concise summary is referred to as Multi-Document Scientific Summarization (MDSS). Currently, while commonly used abstractive MDSS methods can generate flexible and coherent summaries, the difficulty in handling global information and the lack of guidance during decoding still make it challenging to generate better summaries. To alleviate these two shortcomings, this paper introduces summary candidates into MDSS, utilizing the global information of the document set and additional guidance from the summary candidates to guide the decoding process. Our insights are twofold: Firstly, summary candidates can provide instructive information from both positive and negative perspectives, and secondly, selecting higher-quality candidates from multiple options contributes to producing better summaries. Drawing on the insights, we propose a summary candidates fusion framework -- Disentangling Instructive information from Ranked candidates (DIR) for MDSS. Specifically, DIR first uses a specialized pairwise comparison method towards multiple candidates to pick out those of higher quality. Then DIR disentangles the instructive information of summary candidates into positive and negative latent variables with Conditional Variational Autoencoder. These variables are further incorporated into the decoder to guide generation. We evaluate our approach with three different types of Transformer-based models and three different types of candidates, and consistently observe noticeable performance improvements according to automatic and human evaluation. More analyses further demonstrate the effectiveness of our model in handling global information and enhancing decoding controllability.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# MAD音声:音声の音響的多様性の測定

MAD Speech: Measures of Acoustic Diversity of Speech ( http://arxiv.org/abs/2404.10419v1 )

ライセンス: Link先を確認
Matthieu Futeral, Andrea Agostinelli, Marco Tagliasacchi, Neil Zeghidour, Eugene Kharitonov, (参考訳) 生成言語モデルは、音声、韻律、記録条件の幅広い範囲で音声を生成し、自然な音声の多様性に近づいているように見える。 しかし, 適切な指標が欠如しているため, 生成音声の音響的多様性の程度は明らかになっていない。 我々はこのギャップを,MAD音声と呼ぶ音響的多様性の軽量化によって解決する。 音声,性別,感情,アクセント,背景雑音の5つの側面を計測することに焦点を当てた。 本研究では, 顔ごとの埋め込みモデルと, 埋め込み空間内の多様性を計測する集約関数の合成として, 計測値を構築した。 次に、各ファセットの多様性を優先した、一連のデータセットを構築します。 これらのデータセットを用いて,提案した指標がベースラインよりも根底的な多様性との強い一致を達成できることを実証した。 最後に,提案手法の適用性について,複数の実生活評価シナリオで紹介する。 MAD音声は一般公開される予定だ。

Generative spoken language models produce speech in a wide range of voices, prosody, and recording conditions, seemingly approaching the diversity of natural speech. However, the extent to which generated speech is acoustically diverse remains unclear due to a lack of appropriate metrics. We address this gap by developing lightweight metrics of acoustic diversity, which we collectively refer to as MAD Speech. We focus on measuring five facets of acoustic diversity: voice, gender, emotion, accent, and background noise. We construct the metrics as a composition of specialized, per-facet embedding models and an aggregation function that measures diversity within the embedding space. Next, we build a series of datasets with a priori known diversity preferences for each facet. Using these datasets, we demonstrate that our proposed metrics achieve a stronger agreement with the ground-truth diversity than baselines. Finally, we showcase the applicability of our proposed metrics across several real-life evaluation scenarios. MAD Speech will be made publicly accessible.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# AudioProtoPNet:鳥音分類のための解釈可能なディープラーニングモデル

AudioProtoPNet: An interpretable deep learning model for bird sound classification ( http://arxiv.org/abs/2404.10420v1 )

ライセンス: Link先を確認
René Heinrich, Bernhard Sick, Christoph Scholz, (参考訳) 近年、鳥類の多様性を監視するための深層学習モデルが提案されている。 これらのモデルは音響信号を解析することにより高精度に鳥種を検出することができる。 しかし、従来のディープラーニングアルゴリズムは、意思決定プロセスに関する洞察を提供するブラックボックスモデルである。 鳥類学者のようなドメインの専門家にとって、これらのモデルは効率的であるだけでなく、補助ツールとして使われるために解釈可能であることが重要である。 本研究では,そのモデルアーキテクチャによる固有解釈性を提供する音声分類に,Prototypeal Part Network (ProtoPNet) を適用した。 本手法は,特徴抽出のためのConvNeXtバックボーンアーキテクチャに基づいて,訓練データのスペクトログラムを用いて各鳥類の原型パターンを学習する。 新しいデータの分類は、これらのプロトタイプを潜在空間で比較することで行われ、同時にモデルの判断に対する理解しやすい説明を提供する。

Recently, scientists have proposed several deep learning models to monitor the diversity of bird species. These models can detect bird species with high accuracy by analyzing acoustic signals. However, traditional deep learning algorithms are black-box models that provide no insight into their decision-making process. For domain experts, such as ornithologists, it is crucial that these models are not only efficient, but also interpretable in order to be used as assistive tools. In this study, we present an adaption of the Prototypical Part Network (ProtoPNet) for audio classification that provides inherent interpretability through its model architecture. Our approach is based on a ConvNeXt backbone architecture for feature extraction and learns prototypical patterns for each bird species using spectrograms of the training data. Classification of new data is done by comparison with these prototypes in latent space, which simultaneously serve as easily understandable explanations for the model's decisions.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# 現実的触覚知覚のためのバイオタックシミュレーションの最適化

Optimizing BioTac Simulation for Realistic Tactile Perception ( http://arxiv.org/abs/2404.10425v1 )

ライセンス: Link先を確認
Wadhah Zai El Amri, Nicolás Navarro-Guerrero, (参考訳) 触覚は、今日のロボットの相互作用能力を高めるための有望な機会となる。 BioTacは、ロボットが物理的な触覚刺激を知覚し、反応することを可能にする、よく使われる触覚センサーである。 しかし、センサーの非線形性は、その振る舞いをシミュレートする上での課題となる。 本稿では,温度,力,接触点位置を用いてセンサ出力を予測するバイオタックシミュレーションについて検討する。 また,BioTac温度測定によるトレーニングでは,展開中に正確なセンサ出力予測が得られないことを示した。 その結果、XGBoost回帰器、ニューラルネットワーク、トランスフォーマーエンコーダの3つの代替モデルがテストされた。 入力ベクトルのウィンドウサイズを詳細に検討し, 温度測定を行なわずにこれらのモデルを訓練する。 ベースラインネットワークに対して統計的に有意な改善が達成できることを実証する。 さらに,この課題において,XGBoost回帰器とトランスフォーマーが従来のフィードフォワードニューラルネットワークより優れていたことが明らかとなった。 コードと結果はすべてhttps://github.com/wzaielamri/Optimizing_BioTac_Simulationでオンラインで公開しています。

Tactile sensing presents a promising opportunity for enhancing the interaction capabilities of today's robots. BioTac is a commonly used tactile sensor that enables robots to perceive and respond to physical tactile stimuli. However, the sensor's non-linearity poses challenges in simulating its behavior. In this paper, we first investigate a BioTac simulation that uses temperature, force, and contact point positions to predict the sensor outputs. We show that training with BioTac temperature readings does not yield accurate sensor output predictions during deployment. Consequently, we tested three alternative models, i.e., an XGBoost regressor, a neural network, and a transformer encoder. We train these models without temperature readings and provide a detailed investigation of the window size of the input vectors. We demonstrate that we achieve statistically significant improvements over the baseline network. Furthermore, our results reveal that the XGBoost regressor and transformer outperform traditional feed-forward neural networks in this task. We make all our code and results available online on https://github.com/wzaielamri/Optimizing_BioTac_Simulation.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# MEEL: マルチモーダルイベント進化学習

MEEL: Multi-Modal Event Evolution Learning ( http://arxiv.org/abs/2404.10429v1 )

ライセンス: Link先を確認
Zhengwei Tao, Zhi Jin, Junqiang Huang, Xiancai Chen, Xiaoying Bai, Haiyan Zhao, Yifan Zhang, Chongyang Tao, (参考訳) MMER(Multi-modal Event Reasoning)は、さまざまなデータモダリティにまたがる複雑なイベント関係を理解する能力を備えた、マシンへの取り組みである。 MMERは基本的なものであり、幅広い応用の基盤となっている。 広範な命令の微調整にもかかわらず、現在のマルチモーダルな大規模言語モデルはそのような能力に乏しいままである。 この相違は、既存のモデルがさまざまなシナリオにおけるイベント進化を規定する基本原則を捉えるのに不十分であることに由来する。 本稿では,Multi-Modal Event Evolution Learning (MEEL)を導入し,モデルがイベント進化メカニズムを把握できるようにし,高度なMMER能力を実現する。 具体的には、イベントの多様化の設計から始まり、豊富なシナリオからシードイベントを収集する。 次に、これらのシードイベントの進化グラフを生成するためにChatGPTを使用します。 本研究では、進化するグラフを命令調整データに定式化し、事象推論の理解を人間に整合させる命令カプセル化プロセスを提案する。 最後に、この方法でトレーニングされたモデルが、イベントの進化を完全に理解するのに依然として苦労しているのを観察します。 このような場合、モデルが不適切な進化方向を識別するように訓練される指導的識別戦略を提案する。 MMERのベンチマークM-EV2を収集し、キュレートする。 M-EV2の大規模実験により, オープンソースのマルチモーダルLCMにおける競争性能を実証し, 提案手法の有効性を検証した。

Multi-modal Event Reasoning (MMER) endeavors to endow machines with the ability to comprehend intricate event relations across diverse data modalities. MMER is fundamental and underlies a wide broad of applications. Despite extensive instruction fine-tuning, current multi-modal large language models still fall short in such ability. The disparity stems from that existing models are insufficient to capture underlying principles governing event evolution in various scenarios. In this paper, we introduce Multi-Modal Event Evolution Learning (MEEL) to enable the model to grasp the event evolution mechanism, yielding advanced MMER ability. Specifically, we commence with the design of event diversification to gather seed events from a rich spectrum of scenarios. Subsequently, we employ ChatGPT to generate evolving graphs for these seed events. We propose an instruction encapsulation process that formulates the evolving graphs into instruction-tuning data, aligning the comprehension of event reasoning to humans. Finally, we observe that models trained in this way are still struggling to fully comprehend event evolution. In such a case, we propose the guiding discrimination strategy, in which models are trained to discriminate the improper evolution direction. We collect and curate a benchmark M-EV2 for MMER. Extensive experiments on M-EV2 validate the effectiveness of our approach, showcasing competitive performance in open-source multi-modal LLMs.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# MRIの説明可能な概念マッピング:深層学習に基づく脳疾患分類のメカニズムを解明する

Explainable concept mappings of MRI: Revealing the mechanisms underlying deep learning-based brain disease classification ( http://arxiv.org/abs/2404.10433v1 )

ライセンス: Link先を確認
Christian Tinauer, Anna Damulina, Maximilian Sackl, Martin Soellradl, Reduan Achtibat, Maximilian Dreyer, Frederik Pahde, Sebastian Lapuschkin, Reinhold Schmidt, Stefan Ropele, Wojciech Samek, Christian Langkammer, (参考訳) モチベーション。 近年の研究では、ディープニューラルネットワークを用いたアルツハイマー病の分類において高い精度が示されているが、基礎となる学習概念は研究されていない。 ゴール。 モデル検証のためのディープニューラルネットワークによって学習された概念を介して、脳領域の変化を体系的に同定する。 アプローチ。 定量的R2*マップを用いて、畳み込みニューラルネットワークを用いてアルツハイマー病患者(n=117)を正常なコントロール(n=219)から分離し、概念関連伝播を用いて学習概念を体系的に研究し、これらの結果を従来の関心に基づく分析領域と比較した。 結果。 確立された組織学的所見と興味に基づく分析の領域に則って,基底神経節に隣接して非常に関連性の高い概念がみられた。 衝撃。 病気分類のためのディープニューラルネットワークによって学習された概念の識別により、モデルの検証が可能となり、信頼性が向上する可能性がある。

Motivation. While recent studies show high accuracy in the classification of Alzheimer's disease using deep neural networks, the underlying learned concepts have not been investigated. Goals. To systematically identify changes in brain regions through concepts learned by the deep neural network for model validation. Approach. Using quantitative R2* maps we separated Alzheimer's patients (n=117) from normal controls (n=219) by using a convolutional neural network and systematically investigated the learned concepts using Concept Relevance Propagation and compared these results to a conventional region of interest-based analysis. Results. In line with established histological findings and the region of interest-based analyses, highly relevant concepts were primarily found in and adjacent to the basal ganglia. Impact. The identification of concepts learned by deep neural networks for disease classification enables validation of the models and could potentially improve reliability.
翻訳日:2024-04-17 17:23:30 公開日:2024-04-16
# ジョセフソン接合検出器を用いた熱マイクロ波光子の観察

Observation of thermal microwave photons with a Josephson junction detector ( http://arxiv.org/abs/2404.10434v1 )

ライセンス: Link先を確認
A. L. Pankratov, A. V. Gordeeva, A. V. Chiginev, L. S. Revin, A. V. Blagodatkin, N. Crescini, L. S. Kuzmin, (参考訳) 周波数$f$の電磁放射を測定するとき、最も感度の高い検出器はエネルギー$hf$の単一量子を計るものである。 単一光子検出器(SPD)は、$\gamma$-raysから赤外波長まで実証され、この範囲をマイクロ波まで広げることが激しい研究の焦点となっている。 10\,\mathrm{GHz}$wave photon, about 40\,\mathrm {\mu eV}$または7\, \mathrm{yJ}$のエネルギーは、超伝導ジョセフソン接合を抵抗状態に強制するのに十分であり、センサとしての使用に適している。 本研究では,ミリケルビン温度でマイクロ波銅空洞から確率的に放出される単一熱光子を検出するために,ジョゼフソン接合を用いた。 光源と検出器を特徴付けると、共振器の温度が変化し、光子速度が上昇する。 このデバイスは、最大40%の効率を示し、数ギガヘルツの帯域幅で、暗いカウントレートが0.1\,\mathrm{Hz}$である。 放出された光子の熱的性質を確認するために、量子カオスの兆候でもある超ポアソン統計を検証した。 我々はダークマター・アクシオン探索の分野における検出器の適用について論じ、量子情報、気象学、基礎物理学におけるその重要性に留意する。

When measuring electromagnetic radiation of frequency $f$, the most sensitive detector is the one that counts the single quanta of energy $h f$. Single photon detectors (SPDs) were demonstrated from $\gamma$-rays to infrared wavelengths, and extending this range down to the microwaves is the focus of intense research. The energy of $10\,\mathrm{GHz}$ microwave photon, about $40\,\mathrm{\mu eV}$ or $7\, \mathrm{yJ},$ is enough to force a superconducting Josephson junction into its resistive state, making it suitable to be used as a sensor. In this work, we use an underdamped Josephson junction to detect single thermal photons stochastically emitted by a microwave copper cavity at millikelvin temperatures. After characterizing the source and detector, we vary the temperature of the resonant cavity and measure the increased photon rate. The device shows an efficiency up to 40% and a dark count rate of $0.1\,\mathrm{Hz}$ in a bandwidth of several gigahertz. To confirm the thermal nature of the emitted photons we verify their super-Poissonian statistics, which is also a signature of quantum chaos. We discuss detector application in the scope of Dark Matter Axion searches, and note its importance for quantum information, metrology and fundamental physics.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# ジェネレーティブベイのためのツリーバンド

Tree Bandits for Generative Bayes ( http://arxiv.org/abs/2404.10436v1 )

ライセンス: Link先を確認
Sean O'Hagan, Jungeum Kim, Veronika Rockova, (参考訳) 確率が不明瞭な生成モデルでは、近似ベイズ計算(ABC)が推論のための最後の手段であることが多い。 しかし、ABCは、受け入れテストに合格するわずかな部分だけを保持するために、多くの事前パラメータ試行を要求している。 ABCの拒絶サンプリングを高速化するために,過去の試行と誤りから学習する自己認識フレームワークを開発した。 ABCルックアップテーブルに再帰的分割分類器を適用し、高次な領域をボックスに順次洗練する。 各ボックスは、ABCの受け入れを報奨として扱うバイナリバンディット問題において、アームと見なされる。 各アームは、以前の分布と過去の拒絶に依存して、次のABC評価のために選択される確率を持つ。 この手法は、ABCの拒絶を前提とした低確率領域から遠ざかって、可能性の高い領域により多くの分割を行う。 本研究では,(1)後方サンプリング用ABC-Treeと(2)後方推定用ABC-MAPの2つのバージョンを提供する。 シミュレーションコストがはるかに低いABC近似性を示す。 木に基づくバンドアルゴリズムの使用を、ほぼ最適の後悔境界で正当化する。 最後に,提案手法を深部生成モデルを用いたマスク画像分類問題に適用する。

In generative models with obscured likelihood, Approximate Bayesian Computation (ABC) is often the tool of last resort for inference. However, ABC demands many prior parameter trials to keep only a small fraction that passes an acceptance test. To accelerate ABC rejection sampling, this paper develops a self-aware framework that learns from past trials and errors. We apply recursive partitioning classifiers on the ABC lookup table to sequentially refine high-likelihood regions into boxes. Each box is regarded as an arm in a binary bandit problem treating ABC acceptance as a reward. Each arm has a proclivity for being chosen for the next ABC evaluation, depending on the prior distribution and past rejections. The method places more splits in those areas where the likelihood resides, shying away from low-probability regions destined for ABC rejections. We provide two versions: (1) ABC-Tree for posterior sampling, and (2) ABC-MAP for maximum a posteriori estimation. We demonstrate accurate ABC approximability at much lower simulation cost. We justify the use of our tree-based bandit algorithms with nearly optimal regret bounds. Finally, we successfully apply our approach to the problem of masked image classification using deep generative models.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# カメラ・ポーズ・リファインメントにおける事前学習機能の有効性

The Unreasonable Effectiveness of Pre-Trained Features for Camera Pose Refinement ( http://arxiv.org/abs/2404.10438v1 )

ライセンス: Link先を確認
Gabriele Trivigno, Carlo Masone, Barbara Caputo, Torsten Sattler, (参考訳) 詩の洗練は興味深く、実際的な研究の方向性である。 ポース・リファインメントは、(1)初期からより正確なポーズ推定値(例えば、検索から)を得る、(2)前処理として、すなわち、より高価なポーズ推定器により良いスタートポイントを与える、(3)より正確なローカライザの事後処理として利用することができる。 既存のアプローチでは、ポーズリファインメントタスクのための特徴やシーン表現の学習に重点を置いている。 これには暗黙のシーン表現や学習機能をトレーニングし、カメラのポーズベースの損失を最適化することが含まれる。 自然な疑問は、特定の機能/表現のトレーニングが本当に必要かどうか、あるいは、より一般的な機能で、同様の結果がすでに達成されているかどうかである。 本研究では,事前学習した特徴と粒子フィルタとシーンのレンダリング可能な表現を組み合わせた簡単なアプローチを提案する。 その単純さにもかかわらず、最先端の結果を達成し、特定のトレーニングを必要とせずに簡単にポーズリファインダーを構築できることを実証する。 コードはhttps://github.com/ga1i13o/mcloc_poserefにある。

Pose refinement is an interesting and practically relevant research direction. Pose refinement can be used to (1) obtain a more accurate pose estimate from an initial prior (e.g., from retrieval), (2) as pre-processing, i.e., to provide a better starting point to a more expensive pose estimator, (3) as post-processing of a more accurate localizer. Existing approaches focus on learning features / scene representations for the pose refinement task. This involves training an implicit scene representation or learning features while optimizing a camera pose-based loss. A natural question is whether training specific features / representations is truly necessary or whether similar results can be already achieved with more generic features. In this work, we present a simple approach that combines pre-trained features with a particle filter and a renderable representation of the scene. Despite its simplicity, it achieves state-of-the-art results, demonstrating that one can easily build a pose refiner without the need for specific training. The code is at https://github.com/ga1i13o/mcloc_poseref
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# 言語習熟度とF0エントレメント:イタリア語,フランス語,スロバキア語話者におけるL2英語模倣の検討

Language Proficiency and F0 Entrainment: A Study of L2 English Imitation in Italian, French, and Slovak Speakers ( http://arxiv.org/abs/2404.10440v1 )

ライセンス: Link先を確認
Zheng Yuan, Štefan Beňuš, Alessandro D'Ausilio, (参考訳) 本研究では、第2言語(L2)における第2言語(ART)のF0エントレメントについて検討する。 イタリア語、フランス語、スロバキア原語の参加者は、英語の発話を模倣し、そのF0エントレメントは、模倣された発話のパラメータ化されたF0輪郭とモデル発話との動的時間ワープ(DTW)距離を用いて定量化した。 その結果,L2英語の習熟度と習熟度との間にはニュアンスな関係がみられた。 しかし、ダイアドの中では、より熟練した話者がピッチ範囲を模倣する能力を示し、運動が増加する。 このことから,習熟度は,言語スキルと韻律適応の複雑な相互作用を浮き彫りにして,個人レベルでのエントレインメントに異なる影響を与えることが示唆された。

This study explores F0 entrainment in second language (L2) English speech imitation during an Alternating Reading Task (ART). Participants with Italian, French, and Slovak native languages imitated English utterances, and their F0 entrainment was quantified using the Dynamic Time Warping (DTW) distance between the parameterized F0 contours of the imitated utterances and those of the model utterances. Results indicate a nuanced relationship between L2 English proficiency and entrainment: speakers with higher proficiency generally exhibit less entrainment in pitch variation and declination. However, within dyads, the more proficient speakers demonstrate a greater ability to mimic pitch range, leading to increased entrainment. This suggests that proficiency influences entrainment differently at individual and dyadic levels, highlighting the complex interplay between language skill and prosodic adaptation.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# 1st Place Solution for ICCV 2023 OmniObject3D Challenge: Sparse-View Reconstruction

1st Place Solution for ICCV 2023 OmniObject3D Challenge: Sparse-View Reconstruction ( http://arxiv.org/abs/2404.10441v1 )

ライセンス: Link先を確認
Hang Du, Yaping Xue, Weidong Dai, Xuejun Yan, Jingjing Wang, (参考訳) 本報告では,ICCV 2023 OmniObject3D Challenge: Sparse-View Reconstructionにおける第1位ソリューションについて述べる。 この課題は、各オブジェクトの少数の画像のみを用いて、新しいビュー合成と表面再構成のアプローチを評価することである。 基本モデルとしてPixel-NeRFを用い,奥行き監視と粗い位置符号化を適用した。 本実験は,スパースビューの再現性向上における提案手法の有効性を実証するものである。 最終試験では,PSNR 25.44614 で第1位となった。

In this report, we present the 1st place solution for ICCV 2023 OmniObject3D Challenge: Sparse-View Reconstruction. The challenge aims to evaluate approaches for novel view synthesis and surface reconstruction using only a few posed images of each object. We utilize Pixel-NeRF as the basic model, and apply depth supervision as well as coarse-to-fine positional encoding. The experiments demonstrate the effectiveness of our approach in improving sparse-view reconstruction quality. We ranked first in the final test with a PSNR of 25.44614.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# AGHINT:変圧器を用いた異種情報ネットワークにおける属性誘導型表現学習

AGHINT: Attribute-Guided Representation Learning on Heterogeneous Information Networks with Transformer ( http://arxiv.org/abs/2404.10443v1 )

ライセンス: Link先を確認
Jinhui Yuan, Shan Lu, Peibo Duan, Jieyue He, (参考訳) 近年,ノードレベルでの長距離依存や不均一性を捉えることで,表現学習において,ヘテロジニアスグラフニューラルネットワーク(HGNN)は目覚ましい成功を収めている。 しかし、異種情報ネットワーク(HIN)におけるノード属性の利用について検討する研究はほとんどない。 本稿では,ノード間属性の相違がベンチマークタスク中のHGNNのパフォーマンスに与える影響,すなわちノード分類に与える影響について検討し,属性が隣り合うノードと大きく異なるノードを分類した場合に,典型的なモデルが顕著な性能低下を示すことを実証的に見出した。 この問題を軽減するために,Transformer (AGHINT) を用いたAttribute-Guidous Information Networks表現学習モデルを提案する。 具体的には、AGHINTは、高階類似の隣り合う特徴を直接学習プロセスに統合することで、元のグラフ構造の制約を超越し、それらの属性の相違に基づいてノード間のメッセージパッシング機構を変更する。 ターゲットノード属性を持つ3つの実世界の異種グラフベンチマークの大規模な実験結果から、AGHINTは最先端のグラフベンチマークよりも優れていることが示された。

Recently, heterogeneous graph neural networks (HGNNs) have achieved impressive success in representation learning by capturing long-range dependencies and heterogeneity at the node level. However, few existing studies have delved into the utilization of node attributes in heterogeneous information networks (HINs). In this paper, we investigate the impact of inter-node attribute disparities on HGNNs performance within the benchmark task, i.e., node classification, and empirically find that typical models exhibit significant performance decline when classifying nodes whose attributes markedly differ from their neighbors. To alleviate this issue, we propose a novel Attribute-Guided heterogeneous Information Networks representation learning model with Transformer (AGHINT), which allows a more effective aggregation of neighbor node information under the guidance of attributes. Specifically, AGHINT transcends the constraints of the original graph structure by directly integrating higher-order similar neighbor features into the learning process and modifies the message-passing mechanism between nodes based on their attribute disparities. Extensive experimental results on three real-world heterogeneous graph benchmarks with target node attributes demonstrate that AGHINT outperforms the state-of-the-art.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# 半教師付きフレシェ回帰

Semi-supervised Fréchet Regression ( http://arxiv.org/abs/2404.10444v1 )

ライセンス: Link先を確認
Rui Qiu, Zhou Yu, Zhenhua Lin, (参考訳) 本稿では, 半教師付きFr'echet回帰の分野について考察する。 提案手法は,すべての特徴量から得られるグラフ距離に基づいて,半教師付きNW Fr'echet回帰と半教師付きkNN Fr'echet回帰という2つの新しい手法を提案する。 これらの手法は、既存の半教師付きユークリッド回帰法の範囲を広げる。 特徴空間の低次元多様体構造を考慮した限定ラベル付きデータと大量のラベル付きデータによる収束率を確立する。 多様な設定やアプリケーションから実際のデータへの包括的シミュレーションを通じて、本手法の教師付き手法よりも優れた性能を実証する。 本研究では、既存の研究ギャップに対処し、半教師付きFr'echet回帰の分野におけるさらなる探索と発展の道を開く。

This paper explores the field of semi-supervised Fr\'echet regression, driven by the significant costs associated with obtaining non-Euclidean labels. Methodologically, we propose two novel methods: semi-supervised NW Fr\'echet regression and semi-supervised kNN Fr\'echet regression, both based on graph distance acquired from all feature instances. These methods extend the scope of existing semi-supervised Euclidean regression methods. We establish their convergence rates with limited labeled data and large amounts of unlabeled data, taking into account the low-dimensional manifold structure of the feature space. Through comprehensive simulations across diverse settings and applications to real data, we demonstrate the superior performance of our methods over their supervised counterparts. This study addresses existing research gaps and paves the way for further exploration and advancements in the field of semi-supervised Fr\'echet regression.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# SparseDM: 疎拡散モデルに向けて

SparseDM: Toward Sparse Efficient Diffusion Models ( http://arxiv.org/abs/2404.10445v1 )

ライセンス: Link先を確認
Kafeng Wang, Jianfei Chen, He Li, Zhenpeng Mi, Jun Zhu, (参考訳) 拡散モデルはデータ生成タスクで広く使われており、最も優れた生成モデルの一つとして認識されている。 しかしながら、彼らの時間を要するデプロイメント、長い推測時間、大きなメモリに対する要求は、モバイルデバイス上のアプリケーションを制限する。 本稿では,拡散モデルの展開効率を向上させるために,改良されたストレートトラフ推定器に基づく手法を提案する。 具体的には、事前訓練された拡散モデルにおける畳み込み層と線形層にスパースマスクを追加し、微調整段階におけるモデルトレーニングに設計の進歩的スパーシティを使用し、FIDおよびMACs要求に応じて推論中のスパーシティの柔軟な選択をサポートする推論マスクをオン/オフに切り替える。 現状のトランスフォーマーに基づく拡散モデルを用いて行った4つのデータセット実験により,FIDを平均1.5だけ増加させながらMACを50\%の値で削減できることが実証された。 他のMAC条件下では、FIDは他の方法に比べて1$\sim$137以下である。

Diffusion models have been extensively used in data generation tasks and are recognized as one of the best generative models. However, their time-consuming deployment, long inference time, and requirements on large memory limit their application on mobile devices. In this paper, we propose a method based on the improved Straight-Through Estimator to improve the deployment efficiency of diffusion models. Specifically, we add sparse masks to the Convolution and Linear layers in a pre-trained diffusion model, then use design progressive sparsity for model training in the fine-tuning stage, and switch the inference mask on and off, which supports a flexible choice of sparsity during inference according to the FID and MACs requirements. Experiments on four datasets conducted on a state-of-the-art Transformer-based diffusion model demonstrate that our method reduces MACs by $50\%$ while increasing FID by only 1.5 on average. Under other MACs conditions, the FID is also lower than 1$\sim$137 compared to other methods.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# タンパク質-タンパク質相互作用のためのグラフニューラルネットワーク -短時間の調査-

Graph Neural Networks for Protein-Protein Interactions - A Short Survey ( http://arxiv.org/abs/2404.10450v1 )

ライセンス: Link先を確認
Mingda Xu, Peisheng Qian, Ziyuan Zhao, Zeng Zeng, Jianguo Chen, Weide Liu, Xulei Yang, (参考訳) タンパク質とタンパク質の相互作用(PPI)は、幅広い生物学的プロセスにおいて重要な役割を担っている。 PPIを予測するための多くの戦略が提案されており、その中でもグラフベースの手法は、PPIネットワーク固有のグラフ構造に起因する有望な結果を示している。 本稿では,グラフに基づく様々な手法を概説し,そのPPI予測への応用について論じる。 我々はこれらのアプローチをモデル構造に基づいて2つの一次群に分類する。 第1のカテゴリはグラフニューラルネットワーク(GNN)またはグラフ畳み込みネットワーク(GCN)を使用し、第2のカテゴリはグラフアテンションネットワーク(GAT)、グラフオートエンコーダ、グラフ-BERTを使用する。 我々は,PPIネットワークに固有のグラフ構造化データ管理における各手法の特異な方法論を強調し,今後の研究方向性を予想する。

Protein-protein interactions (PPIs) play key roles in a broad range of biological processes. Numerous strategies have been proposed for predicting PPIs, and among them, graph-based methods have demonstrated promising outcomes owing to the inherent graph structure of PPI networks. This paper reviews various graph-based methodologies, and discusses their applications in PPI prediction. We classify these approaches into two primary groups based on their model structures. The first category employs Graph Neural Networks (GNN) or Graph Convolutional Networks (GCN), while the second category utilizes Graph Attention Networks (GAT), Graph Auto-Encoders and Graph-BERT. We highlight the distinctive methodologies of each approach in managing the graph-structured data inherent in PPI networks and anticipate future research directions in this domain.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# 電磁場の量子真空揺らぎの検出

Detecting quantum vacuum fluctuations of the electromagnetic field ( http://arxiv.org/abs/2404.10453v1 )

ライセンス: Link先を確認
Aaron Malcolm, B. Sharmila, Zhi-Wei Wang, Animesh Datta, (参考訳) 我々は、高調波に閉じ込められた荷電粒子上の電磁場の量子真空ゆらぎの2つの符号を同定する。 これらは、自然トラップ周波数と量子コヒーレンスの生成からのシフトである。 単一電子サイクロトロンと推定される周波数シフトは、将来の実験で観測できるはずである。 また、真空発生した量子コヒーレンスを検出するための経路も提案する。 推定値に到達する際の長波長および回転波近似の役割を評価する。 これらの実験は、量子真空変動の影響を捉える際の近似とゲージの選択に関する議論を決着させるべきである。

We identify two signatures of quantum vacuum fluctuations of the electromagnetic field on a harmonically trapped charged particle. They are a shift from the natural trap frequency and generation of quantum coherences. The frequency shift, estimated for a single-electron cyclotron, should be observable in future experiments. We also suggest a possible route to detecting vacuum-generated quantum coherences. We assess the role of the long-wavelength and rotating-wave approximations in arriving at our estimates. These experiments should settle the debate on the choice of approximations and gauge in capturing the effect of the quantum vacuum fluctuations.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# コンピュータビジョンによる分析研究室における消費財の自動管理のための品質評価手法

A Computer Vision-Based Quality Assessment Technique for the automatic control of consumables for analytical laboratories ( http://arxiv.org/abs/2404.10454v1 )

ライセンス: Link先を確認
Meriam Zribi, Paolo Pagliuca, Francesca Pitolli, (参考訳) 産業4.0パラダイムの急速な成長により、効率的な自動監視システムの開発への圧力が高まっている。 人工知能(AI)は、エラーや無駄を減らしながら産業プロセスの効率を改善する便利なツールである。 実際、リアルタイムデータを使用することで、監視システムの有効性の向上、エラーの最小化、生産プロセスの持続性の向上、コスト削減が可能になる。 本稿では, 人手による制御プロセスの有効性向上を目的とした, 分析実験室で使用されるプラスチック消費財の製造プロセスにおいて, 新たな自動監視システムを提案する。 特に,試験管内に透明な抗凝固物質の有無を分類する問題を検討した。 具体的には、手動設計のディープネットワークモデルを使用し、いくつかの最先端モデルと比較することにより、抗凝固剤で満たされたり、空になったりできるバイアルの異なるイメージを分類することができる。 得られた結果は,提案手法が最先端モデルと精度で競合することを示している。 さらに, バイアル内における抗凝固剤の有無だけでなく, 試験管の大きさも判別できることを訓練することにより, 作業の複雑さを増大させた。 後者のシナリオで行った分析は、我々のアプローチの競争力を裏付けるものである。 さらに,本モデルは,その一般化能力において極めて優れており,資源の少ないモデルである。 これらの結果から, プラスチック製品の製造プロセスにおいて, このようなモデルをうまく実装できる可能性が示唆された。

The rapid growth of the Industry 4.0 paradigm is increasing the pressure to develop effective automated monitoring systems. Artificial Intelligence (AI) is a convenient tool to improve the efficiency of industrial processes while reducing errors and waste. In fact, it allows the use of real-time data to increase the effectiveness of monitoring systems, minimize errors, make the production process more sustainable, and save costs. In this paper, a novel automatic monitoring system is proposed in the context of production process of plastic consumables used in analysis laboratories, with the aim to increase the effectiveness of the control process currently performed by a human operator. In particular, we considered the problem of classifying the presence or absence of a transparent anticoagulant substance inside test tubes. Specifically, a hand-designed deep network model is used and compared with some state-of-the-art models for its ability to categorize different images of vials that can be either filled with the anticoagulant or empty. Collected results indicate that the proposed approach is competitive with state-of-the-art models in terms of accuracy. Furthermore, we increased the complexity of the task by training the models on the ability to discriminate not only the presence or absence of the anticoagulant inside the vial, but also the size of the test tube. The analysis performed in the latter scenario confirms the competitiveness of our approach. Moreover, our model is remarkably superior in terms of its generalization ability and requires significantly fewer resources. These results suggest the possibility of successfully implementing such a model in the production process of a plastic consumables company.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# タンパク質相互作用ベンチマークにおけるデータ漏洩の解明

Revealing data leakage in protein interaction benchmarks ( http://arxiv.org/abs/2404.10457v1 )

ライセンス: Link先を確認
Anton Bushuiev, Roman Bushuiev, Jiri Sedlar, Tomas Pluskal, Jiri Damborsky, Stanislav Mazurenko, Josef Sivic, (参考訳) 近年,タンパク質-タンパク質相互作用における機械学習の進歩が目覚ましい。 しかし、先行研究は主に学習アルゴリズムの改善に焦点を当てており、評価戦略やデータ準備にはあまり注意が払われていない。 ここでは、既存の列車-テスト分割の品質によって、機械学習手法のさらなる開発が妨げられる可能性があることを実証する。 具体的には、タンパク質の配列やメタデータの類似性に基づくタンパク質複合体の分割戦略が、大きなデータ漏洩をもたらすことを明らかにする。 これは、一般化の過度な最適化評価とモデルの不公平なベンチマークの結果となり、実用性よりも過度に適合する能力を評価することに偏っている。 データ漏洩を克服するため、タンパク質-タンパク質界面の3次元構造的類似性に基づいてデータ分割を構築することを推奨し、対応するアルゴリズムを提案する。 この研究領域のさらなる進展には,データ漏洩問題への対処が重要であると我々は信じている。

In recent years, there has been remarkable progress in machine learning for protein-protein interactions. However, prior work has predominantly focused on improving learning algorithms, with less attention paid to evaluation strategies and data preparation. Here, we demonstrate that further development of machine learning methods may be hindered by the quality of existing train-test splits. Specifically, we find that commonly used splitting strategies for protein complexes, based on protein sequence or metadata similarity, introduce major data leakage. This may result in overoptimistic evaluation of generalization, as well as unfair benchmarking of the models, biased towards assessing their overfitting capacity rather than practical utility. To overcome the data leakage, we recommend constructing data splits based on 3D structural similarity of protein-protein interfaces and suggest corresponding algorithms. We believe that addressing the data leakage problem is critical for further progress in this research area.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# パッチフォーマによる長期多エネルギー負荷予測の高速化:パッチとトランスフォーマに基づくアプローチ

Advancing Long-Term Multi-Energy Load Forecasting with Patchformer: A Patch and Transformer-Based Approach ( http://arxiv.org/abs/2404.10458v1 )

ライセンス: Link先を確認
Qiuyi Hong, Fanlin Meng, Felipe Maldonado, (参考訳) 本稿では,エンコーダ・デコーダ・トランスフォーマーをベースとしたアーキテクチャにパッチ埋め込みを組み込んだ新しいモデルであるPatchformerを提案する。 長期予測において複雑な時間パターンに苦しむ既存のTransformerベースのモデルの制限に対処するため、Patchformerでは、複数の単変量データに分割し、それぞれを複数のパッチに分割することで、多変量時系列データを予測するパッチ埋め込みを採用している。 この方法は、ローカルおよびグローバルなセマンティック依存関係をキャプチャするモデルの能力を効果的に強化する。 Patchformerは、新しいMulti-Energyデータセットや他のベンチマークデータセットに基づいて、多変量および単変量の両方の長期予測において、全体的な予測精度が向上していることを示す。 また,エネルギー関連製品間の相互依存性が,Patchformerおよび他の比較モデルにおける長期時系列予測の性能に及ぼす影響が発見され,Patchformerの他モデルに対する優位性も示された。 最後に、Patchformerは、モデル性能と過去のシーケンスの長さの正の相関に従う唯一のモデルとして説明され、それは、長期にわたる局所的な意味情報をキャプチャする能力を示している。

In the context of increasing demands for long-term multi-energy load forecasting in real-world applications, this paper introduces Patchformer, a novel model that integrates patch embedding with encoder-decoder Transformer-based architectures. To address the limitation in existing Transformer-based models, which struggle with intricate temporal patterns in long-term forecasting, Patchformer employs patch embedding, which predicts multivariate time-series data by separating it into multiple univariate data and segmenting each of them into multiple patches. This method effectively enhances the model's ability to capture local and global semantic dependencies. The numerical analysis shows that the Patchformer obtains overall better prediction accuracy in both multivariate and univariate long-term forecasting on the novel Multi-Energy dataset and other benchmark datasets. In addition, the positive effect of the interdependence among energy-related products on the performance of long-term time-series forecasting across Patchformer and other compared models is discovered, and the superiority of the Patchformer against other models is also demonstrated, which presents a significant advancement in handling the interdependence and complexities of long-term multi-energy forecasting. Lastly, Patchformer is illustrated as the only model that follows the positive correlation between model performance and the length of the past sequence, which states its ability to capture long-range past local semantic information.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# 多体量子技術の約束と課題--量子エンジンに焦点をあてて

The promises and challenges of many-body quantum technologies: a focus on quantum engines ( http://arxiv.org/abs/2404.10459v1 )

ライセンス: Link先を確認
Victor Mukherjee, Uma Divakaran, (参考訳) 多体システムは量子技術を設計するのに有益か? 近年の研究では、相転移に近い発散など多体効果の活用による潜在的な利益を示す量子エンジンについて検討している。 しかし、実際の応用については未解決の疑問が残る。

Can many-body systems be beneficial to designing quantum technologies? We address this question by examining quantum engines, where recent studies indicate potential benefits through the harnessing of many-body effects, such as divergences close to phase transitions. However, open questions remain regarding their real-world applications.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# 量子ジャンプの理論

A Theory of Quantum Jumps ( http://arxiv.org/abs/2404.10460v1 )

ライセンス: Link先を確認
Jürg Fröhlich, Zhou Gang, Alessandro Pizzo, (参考訳) ETHの原理(量子力学へのアプローチ)を用いて、量子化された電磁場に結合した原子の理想化されたモデルにおける蛍光と「量子ジャンプ」現象を研究する。 原子の軌道運動が無視され光の速度が無限大になる制限状態において、個々の原子の状態の有効時間進化を記述する明示的な非線形確率微分方程式を導出する。 これらの方程式は、ブラウン運動のウィナー測度の量子力学的類似である量子ジャンプを持つ状態軌道の測度をもたらす。 この結果は、いくつかの単純なモデルの文脈における基本原理から、顕微鏡システムの量子力学的記述における基本ランダム性の導出に関係している。

Using the principles of the ETH - Approach to Quantum Mechanics we study fluorescence and the phenomenon of ``quantum jumps'' in idealized models of atoms coupled to the quantized electromagnetic field. In a limiting regime where the orbital motion of the atoms is neglected and the velocity of light tends to infinity we derive explicit non-linear stochastic differential equations describing the effective time evolution of states of individual atoms. These equations give rise to a measure on state-trajectories with quantum jumps which is a quantum-mechanical analogue of the Wiener measure of Brownian motion. Our results amount to a derivation of the fundamental randomness in the quantum-mechanical description of microscopic systems from basic principles in the context of some simple models.
翻訳日:2024-04-17 17:13:30 公開日:2024-04-16
# 応答関数の投影によるパルス工学

Pulse Engineering via Projection of Response Functions ( http://arxiv.org/abs/2404.10462v1 )

ライセンス: Link先を確認
Nicolas Heimann, Lukas Broers, Ludwig Mathey, (参考訳) 本稿では,最適忠実度を持つ所望の演算の実装を目的とした,量子システムの反復最適制御法を提案する。 方法の更新ステップは、制御演算子に対する忠実度の線形応答と、対応する演算子のモード関数への投影に基づく。 本手法は、勾配上昇パルス工学や変分量子アルゴリズムなどの手法を拡張し、超パラメータフリーで忠実度勾配を決定し、マルチパラメータ更新に利用し、摂動とモード関数の多重モード重なりを考慮に入れた。 これにより、パラメータの集合を更新するために評価される必要がある動的なトラジェクトリの数を直接削減する。 このアプローチを実証し、2つの量子ビット上の量子ゲートの例のように標準のGRAPEアルゴリズムと比較し、生成したプロトコルの収束性と最適忠実度を明確に向上することを示す。

We present an iterative optimal control method of quantum systems, aimed at an implementation of a desired operation with optimal fidelity. The update step of the method is based on the linear response of the fidelity to the control operators, and its projection onto the mode functions of the corresponding operator. Our method extends methods such as gradient ascent pulse engineering and variational quantum algorithms, by determining the fidelity gradient in a hyperparameter-free manner, and using it for a multi-parameter update, capitalizing on the multi-mode overlap of the perturbation and the mode functions. This directly reduces the number of dynamical trajectories that need to be evaluated in order to update a set of parameters. We demonstrate this approach, and compare it to the standard GRAPE algorithm, for the example of a quantum gate on two qubits, demonstrating a clear improvement in convergence and optimal fidelity of the generated protocol.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# DESTEIN:ユニバーサルステアリングペアとヘッドワイドアクティベーションフュージョンによる言語モデルのデトックス化のナビゲート

DESTEIN: Navigating Detoxification of Language Models via Universal Steering Pairs and Head-wise Activation Fusion ( http://arxiv.org/abs/2404.10464v1 )

ライセンス: Link先を確認
Yu Li, Zhihua Wei, Han Jiang, Chuanyang Gong, (参考訳) 言語モデル (LM) は様々なタスクにまたがる顕著な成果にもかかわらず、有害なアウトプットを生成するための妥当性は依然として大きな関心事である。 微調整または補助モデルを含む現在のソリューションは、通常、広範囲のメモリと計算資源を必要とするため、大きな言語モデル(LLM)への展開には実用的でない。 本稿では,活性化空間における内部表現を低リソースかつ時間的コストで変化させることにより,LMをデトキシフィケーションする新しい手法であるDeSteinを提案する。 具体的には,自己誘導型ステアリングペアを利用して,活性化空間の算術演算を通じてデトキシフィケーションベクトルを同定する。 推論中、デトキシフィケーションベクトルと元の表現をブレンドすることでデトキシフィケーションが達成される。 実験結果から,本手法は一般的なデトキシ化指標に対する従来の最先端手法よりも優れており,良好な生成品質と多様性を維持していることがわかった。 さらに,本手法を複数のLLMに拡張し,実用性と拡張性を示す。 警告: いくつかのモデル出力には、非常に攻撃的または乱雑なテキストが含まれている。

Despite the remarkable achievements of language models (LMs) across a broad spectrum of tasks, their propensity for generating toxic outputs remains a prevalent concern. Current solutions involving fine-tuning or auxiliary models usually require extensive memory and computational resources, rendering them less practical for deployment in large language models (LLMs). In this paper, we propose DeStein, a novel method that detoxififies LMs by altering their internal representations in the activation space with lower resource and time cost. Specifically, we leverage self-induced steering pairs to identify detoxification vectors through arithmetic operations in the activation space. During inference, detoxification is achieved by blending the detoxification vectors with the original representations. Empirical results demonstrate that our method significantly outperforms previous state-of-the-art approaches on popular detoxification metrics, while also maintaining satisfactory generation quality and diversity. Furthermore, we extend our method to multiple LLMs, demonstrating its practicality and scalability. Warning: some example model outputs contain highly offensive or disturbing text.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# 原子干渉計の進歩と将来の衛星重力ミッションにおける量子加速度計の性能への影響

Advances in Atom Interferometry and their Impacts on the Performance of Quantum Accelerometers On-board Future Satellite Gravity Missions ( http://arxiv.org/abs/2404.10471v1 )

ライセンス: Link先を確認
Alireza HosseiniArania, Manuel Schilling, Quentin Beaufils, Annike Knabe, Benjamin Tennstedt, Alexey Kupriyanov, Steffen Schön, Franck Pereira dos Santos, Jürgen Müller, (参考訳) 低温原子干渉計の最近の進歩は、量子慣性センサーの宇宙応用への道を切り開いている。 本研究では,マッハ・ツェンダー型冷原子加速度計のための包括的軌道内モデルを開発した。 異なる仮定で性能試験を行い、様々な誤差源が機器の安定性に与える影響を評価する。 宇宙ベースの原子干渉計の現在と将来の進歩について論じ、衛星重力ミッションにおける量子センサーの性能への影響を、最先端のシナリオ、近未来(今後5~10年)、遠未来シナリオ(今後10~20年)の3つの異なるシナリオで調査した。 我々は,現在の最先端技術を用いて,5E-10に近い感度レベルを達成できることを実証した。 また、近未来と遠未来において、宇宙における原子干渉計は、それぞれ1E-11と1E-12の感度レベルを達成することが期待されている。 将来のCAI加速度計の性能を最大化する原子干渉計の改良のためのロードマップが提供される。 最後に、将来の宇宙ミッションにおける宇宙での超感度原子干渉法の可能性と課題について論じる。

Recent advances in cold atom interferometry have cleared the path for space applications of quantum inertial sensors, whose level of stability is expected to increase dramatically with the longer interrogation times accessible in space. In this study, a comprehensive in-orbit model is developed for a Mach-Zehnder-type cold-atom accelerometer. Performance tests are realized under different assumptions, and the impact of various sources of errors on instrument stability is evaluated. Current and future advances for space-based atom interferometry are discussed, and their impact on the performance of quantum sensors on-board satellite gravity missions is investigated in three different scenarios: state-of-the-art scenario, near-future (between the next 5 and 10 years) and far-future scenarios (between the next 10 to 20 years). We show that one can achieve a sensitivity level close to 5E-10 with the current state-of-the-art technology. We also estimate that in the near and far-future, atom interferometry in space is expected to achieve sensitivity levels of 1E-11 and 1E-12, respectively. A roadmap for improvements in atom interferometry is provided that would maximize the performance of future CAI accelerometers, considering their technical capabilities. Finally, the possibility and challenges of having ultra-sensitive atom interferometry in space for future space missions are discussed.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# 境界値問題に対する微分方程式解の数値設定調整のための機械学習に基づく最適化ワークフロー

Machine Learning Based Optimization Workflow for Tuning Numerical Settings of Differential Equation Solvers for Boundary Value Problems ( http://arxiv.org/abs/2404.10472v1 )

ライセンス: Link先を確認
Viny Saajan Victor, Manuel Ettmüller, Andre Schmeißer, Heike Leitte, Simone Gramsch, (参考訳) 数種類の数値微分方程式解法は、微分方程式を迅速かつ便利に解くための解析解法に代わるものとして、長年にわたって効果的に利用されてきた。 これらのうちの1つのカテゴリは境界値解法であり、境界条件を持つ微分方程式として定式化された実世界の問題を解くために用いられる。 これらの解法は、解の可解性や性能に影響を与える微分方程式を解くために、一定の数値的な設定を必要とする。 これらの設定の体系的な微調整は、望ましい解決策と性能を得るために必要である。 現在、これらの設定はトライアルとエラーによって選択されるか、ドメインの専門知識を必要とする。 本稿では,そのプロセスに必要な時間と領域の専門知識を減らすために,数値設定を微調整する機械学習ベースの最適化ワークフローを提案する。 評価項目では,提案したワークフローのスケーラビリティ,安定性,信頼性について論じる。 本稿では,数値境界値問題の解法に関するワークフローを実演する。

Several numerical differential equation solvers have been employed effectively over the years as an alternative to analytical solvers to quickly and conveniently solve differential equations. One category of these is boundary value solvers, which are used to solve real-world problems formulated as differential equations with boundary conditions. These solvers require certain numerical settings to solve the differential equations that affect their solvability and performance. A systematic fine-tuning of these settings is required to obtain the desired solution and performance. Currently, these settings are either selected by trial and error or require domain expertise. In this paper, we propose a machine learning-based optimization workflow for fine-tuning the numerical settings to reduce the time and domain expertise required in the process. In the evaluation section, we discuss the scalability, stability, and reliability of the proposed workflow. We demonstrate our workflow on a numerical boundary value problem solver.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# アウト・オブ・ディストリビューション検出のための現実的ベンチマークに向けて

Toward a Realistic Benchmark for Out-of-Distribution Detection ( http://arxiv.org/abs/2404.10474v1 )

ライセンス: Link先を確認
Pietro Recalcati, Fabio Garcea, Luca Piano, Fabrizio Lamberti, Lia Morra, (参考訳) ディープニューラルネットワークは、幅広い技術やサービスで使われているが、アウト・オブ・ディストリビューション(OOD:out-of-distribution)のサンプル、すなわち、元々のトレーニングセットとは異なる分布から引き出されたものの影響を受けやすいままである。 この問題に対処するための一般的なアプローチは、OODサンプルを検出する機能を備えたディープニューラルネットワークを提供することである。 OOD検出技術の設計と検証のためにいくつかのベンチマークが提案されている。 しかし、それらの多くは、非常に異なる分布から引き出された遠OODサンプルに基づいており、現実世界のシナリオのニュアンスを捉えるのに必要な複雑さが欠如している。 本研究では,ImageNetとPlaces365をベースとしたOOD検出のための総合ベンチマークを提案する。 様々な特性を持つベンチマークを生成するために、どのクラスを配布中と考えるべきかを決定するために、いくつかのテクニックが使える。 異なるOOD検出手法による実験結果から, 評価の有効性が選択されたベンチマークにどのように依存するか, および, 信頼度に基づく手法が, ほぼOODサンプル上での分類器に基づく手法よりも優れていることを示す。

Deep neural networks are increasingly used in a wide range of technologies and services, but remain highly susceptible to out-of-distribution (OOD) samples, that is, drawn from a different distribution than the original training set. A common approach to address this issue is to endow deep neural networks with the ability to detect OOD samples. Several benchmarks have been proposed to design and validate OOD detection techniques. However, many of them are based on far-OOD samples drawn from very different distributions, and thus lack the complexity needed to capture the nuances of real-world scenarios. In this work, we introduce a comprehensive benchmark for OOD detection, based on ImageNet and Places365, that assigns individual classes as in-distribution or out-of-distribution depending on the semantic similarity with the training set. Several techniques can be used to determine which classes should be considered in-distribution, yielding benchmarks with varying properties. Experimental results on different OOD detection techniques show how their measured efficacy depends on the selected benchmark and how confidence-based techniques may outperform classifier-based ones on near-OOD samples.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# 教育レベルの異なる科学概念の教材としての会話

Conversations as a Source for Teaching Scientific Concepts at Different Education Levels ( http://arxiv.org/abs/2404.10475v1 )

ライセンス: Link先を確認
Donya Rooein, Dirk Hovy, (参考訳) オープンな会話は、最も魅力的な教育の1つです。 しかし、これらの会話を教育ソフトウェアで作成するのは、特に異なるオーディエンスのニーズに対処したい場合、複雑な作業である。 言語モデルは教育的応用には大きな可能性を秘めているが、多種多様な聴衆のニーズを考慮すると、有意義で効果的な会話教育を行うよう教育する上で大きな課題がある。 多様なオーディエンスのニーズを考慮して,会話教育のための言語モデルの訓練を容易にするための公式データセットは存在しない。 本稿では, 幼児から専門家まで, 様々な難易度において, 科学概念の会話指導を容易にするための新しい教材について述べる。 我々は、このデータソースをさまざまな方法で分析し、特定の対象のオーディエンスに対する科学的トピックに対する文脈的に適切で自然な応答を生成するために使用できる、さまざまな例を提供していることを示す。 これは、有機的に発生する対話を含む会話モデルを訓練し評価するための、自由に利用可能な貴重なリソースである。 生データはオンラインで公開されているが、利用可能なすべてのビデオにおいて、各レベルにおける対話の分析のための追加メタデータを提供する。

Open conversations are one of the most engaging forms of teaching. However, creating those conversations in educational software is a complex endeavor, especially if we want to address the needs of different audiences. While language models hold great promise for educational applications, there are substantial challenges in training them to engage in meaningful and effective conversational teaching, especially when considering the diverse needs of various audiences. No official data sets exist for this task to facilitate the training of language models for conversational teaching, considering the diverse needs of various audiences. This paper presents a novel source for facilitating conversational teaching of scientific concepts at various difficulty levels (from preschooler to expert), namely dialogues taken from video transcripts. We analyse this data source in various ways to show that it offers a diverse array of examples that can be used to generate contextually appropriate and natural responses to scientific topics for specific target audiences. It is a freely available valuable resource for training and evaluating conversation models, encompassing organically occurring dialogues. While the raw data is available online, we provide additional metadata for conversational analysis of dialogues at each level in all available videos.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# 顔検出のための最適分散Haarライクフィルタ

Efficient optimal dispersed Haar-like filters for face detection ( http://arxiv.org/abs/2404.10476v1 )

ライセンス: Link先を確認
Zeinab Sedaghatjoo, Hossein Hosseinzadeh, Ahmad shirzadi, (参考訳) 本稿では,顔を効率よく検出するための分散Haarライクなフィルタを提案する。 フィルタを見つける基本的な考え方は、クラス間の最大化とクラス内の分散の最小化である。 提案フィルタはハール様フィルタを分散した最適構成とみなすことができる。

This paper introduces a new dispersed Haar-like filter for efficiently detection face. The basic idea for finding the filter is maximising between-class and minimising within-class variance. The proposed filters can be considered as an optimal configuration dispersed Haar-like filters; filters with disjoint black and white parts.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# BayesJudge: 法的判断予測における信頼不確実性を伴うベイズカーネル言語モデリング

BayesJudge: Bayesian Kernel Language Modelling with Confidence Uncertainty in Legal Judgment Prediction ( http://arxiv.org/abs/2404.10481v1 )

ライセンス: Link先を確認
Ubaid Azam, Imran Razzak, Shelly Vishwakarma, Hakim Hacid, Dell Zhang, Shoaib Jameel, (参考訳) 信頼性の高い法的判断を予測することは、責任ある法的AIアプリケーションにとって最優先事項である。 BERTのようなトランスフォーマーベースのディープニューラルネットワーク(DNN)は法的タスクにおいて有望であることを示しているが、予測の信頼性を正確に評価することは依然として重要である。 深層学習と深層ガウス過程の相乗効果を利用して,ベイズ核モンテカルロ降下による不確実性の定量化を行うベイズジャッジ(BayesJudge)と呼ばれる新しいベイズアプローチを提案する。 提案手法は,予測精度と信頼性評価の両方で既存の手法を上回り,カーネルによる情報的先行とフレキシブルなデータモデリングを利用する。 パブリックな法的データセットの大規模な評価は、さまざまなタスクにまたがる私たちのモデルの優れたパフォーマンスを示しています。 また、信頼できない予測の精査を自動化するための最適解を導入し、その結果、モデルの予測の精度を最大27%向上させる。 裁判官や法律専門家により信頼できる情報を与えることによって、我々の仕事は、知識と定量化された不確実性の両方に根ざした情報決定を促進する、信頼できる透明な法律AIアプリケーションへの道を開く。

Predicting legal judgments with reliable confidence is paramount for responsible legal AI applications. While transformer-based deep neural networks (DNNs) like BERT have demonstrated promise in legal tasks, accurately assessing their prediction confidence remains crucial. We present a novel Bayesian approach called BayesJudge that harnesses the synergy between deep learning and deep Gaussian Processes to quantify uncertainty through Bayesian kernel Monte Carlo dropout. Our method leverages informative priors and flexible data modelling via kernels, surpassing existing methods in both predictive accuracy and confidence estimation as indicated through brier score. Extensive evaluations of public legal datasets showcase our model's superior performance across diverse tasks. We also introduce an optimal solution to automate the scrutiny of unreliable predictions, resulting in a significant increase in the accuracy of the model's predictions by up to 27\%. By empowering judges and legal professionals with more reliable information, our work paves the way for trustworthy and transparent legal AI applications that facilitate informed decisions grounded in both knowledge and quantified uncertainty.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# AIの医者を信頼する? カーネルのドロップアウト不確実性で信頼性の高い医療予測を構築する

Would You Trust an AI Doctor? Building Reliable Medical Predictions with Kernel Dropout Uncertainty ( http://arxiv.org/abs/2404.10483v1 )

ライセンス: Link先を確認
Ubaid Azam, Imran Razzak, Shelly Vishwakarma, Hakim Hacid, Dell Zhang, Shoaib Jameel, (参考訳) AIの能力の増大は、医療における信頼性に関する疑問、特に不透明な意思決定と限られたデータ可用性のために提起される。 本稿では,これらの課題に対処する新しいアプローチを提案し,カーネルモデルを用いたベイジアンモンテカルロ・ドロップアウトモデルを提案する。 私たちのモデルは、小さな医療データセットの信頼性を高めるように設計されています。 このモデルは既存の言語モデルを利用して効率を改善し、現在のワークフローとシームレスに統合する。 私たちは、限られたデータであっても、信頼性が大幅に向上し、AI駆動型医療予測への信頼の構築と、患者のケアを改善する可能性の解放に向けた有望なステップを提供します。

The growing capabilities of AI raise questions about their trustworthiness in healthcare, particularly due to opaque decision-making and limited data availability. This paper proposes a novel approach to address these challenges, introducing a Bayesian Monte Carlo Dropout model with kernel modelling. Our model is designed to enhance reliability on small medical datasets, a crucial barrier to the wider adoption of AI in healthcare. This model leverages existing language models for improved effectiveness and seamlessly integrates with current workflows. We demonstrate significant improvements in reliability, even with limited data, offering a promising step towards building trust in AI-driven medical predictions and unlocking its potential to improve patient care.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# AbsGSが3Dガウシアン・スティングの細部を発見

AbsGS: Recovering Fine Details for 3D Gaussian Splatting ( http://arxiv.org/abs/2404.10484v1 )

ライセンス: Link先を確認
Zongxin Ye, Wenyu Li, Sidun Liu, Peng Qiao, Yong Dou, (参考訳) 3D Gaussian Splatting (3D-GS) 技術は、3D Gaussian プリミティブを異なるラスタ化で結合させ、高度なリアルタイムレンダリング性能を提供しながら高品質な新規ビュー合成結果を実現する。 しかし、3D-GSの適応密度制御戦略の欠陥のため、高頻度の詳細を含む複雑なシーンでは過度に再構成されることが多く、ぼやけた描画画像が生じる。 欠陥の根本原因はまだ解明されていない。 本研究では,上述した人工物,すなわち勾配衝突の原因の包括的解析を行い,過度に再構成された地域のガウス人が分裂するのを防ぐ。 この問題に対処するために, 密度化の基準として, 水平方向の空間的位置勾配を新たに提案する。 我々の戦略は過度に再構成された地域のガウシアンを効率よく同定し,分割によって細部を復元する。 提案手法を様々な挑戦的データセット上で評価する。 実験結果から,本手法は,メモリ消費の削減あるいは類似化によって,最高のレンダリング品質を実現することが示唆された。 提案手法は実装が容易であり,最新のガウススプラッティング法にも適用可能である。 正式な公開で、私たちのコードをオープンソースにします。 私たちのプロジェクトページは、https://ty424.github.io/AbsGS.github.io/で利用可能です。

3D Gaussian Splatting (3D-GS) technique couples 3D Gaussian primitives with differentiable rasterization to achieve high-quality novel view synthesis results while providing advanced real-time rendering performance. However, due to the flaw of its adaptive density control strategy in 3D-GS, it frequently suffers from over-reconstruction issue in intricate scenes containing high-frequency details, leading to blurry rendered images. The underlying reason for the flaw has still been under-explored. In this work, we present a comprehensive analysis of the cause of aforementioned artifacts, namely gradient collision, which prevents large Gaussians in over-reconstructed regions from splitting. To address this issue, we propose the novel homodirectional view-space positional gradient as the criterion for densification. Our strategy efficiently identifies large Gaussians in over-reconstructed regions, and recovers fine details by splitting. We evaluate our proposed method on various challenging datasets. The experimental results indicate that our approach achieves the best rendering quality with reduced or similar memory consumption. Our method is easy to implement and can be incorporated into a wide variety of most recent Gaussian Splatting-based methods. We will open source our codes upon formal publication. Our project page is available at: https://ty424.github.io/AbsGS.github.io/
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# 複合現実感のフィードバックによる中国語手話指導

Teaching Chinese Sign Language with Feedback in Mixed Reality ( http://arxiv.org/abs/2404.10490v1 )

ライセンス: Link先を確認
Hongli Wen, Yang Xu, Lin Li, Xudong Ru, (参考訳) 伝統的な手話教育手法は、限られたフィードバックや多様な学習シナリオといった課題に直面している。 2Dリソースにはリアルタイムのフィードバックがないが、教師の不足によって教室の授業は制限されている。 VRとARに基づく手法には、比較的原始的なインタラクションフィードバック機構がある。 本研究では,リアルタイムモノクルビジョンと複合現実感技術を用いた革新的な教育モデルを提案する。 まず,手話のセマンティック保持とリアルタイムフィードバックを実現するため,手動姿勢の再構築手法を提案する。 第2に,手話の専門家との整合性を維持した3次システム評価アルゴリズムを提案する。 さらに、混合現実技術を用いてシナリオベースの3D手話教室を構築し、シナリオ教育のユーザ体験を探究する。 本稿では, 没入型学習体験, 高度姿勢再構築, 正確なフィードバックを提供し, ユーザ体験に対する肯定的なフィードバックと学習効果を実現する新しい学習方法を提案する。

Traditional sign language teaching methods face challenges such as limited feedback and diverse learning scenarios. Although 2D resources lack real-time feedback, classroom teaching is constrained by a scarcity of teacher. Methods based on VR and AR have relatively primitive interaction feedback mechanisms. This study proposes an innovative teaching model that uses real-time monocular vision and mixed reality technology. First, we introduce an improved hand-posture reconstruction method to achieve sign language semantic retention and real-time feedback. Second, a ternary system evaluation algorithm is proposed for a comprehensive assessment, maintaining good consistency with experts in sign language. Furthermore, we use mixed reality technology to construct a scenario-based 3D sign language classroom and explore the user experience of scenario teaching. Overall, this paper presents a novel teaching method that provides an immersive learning experience, advanced posture reconstruction, and precise feedback, achieving positive feedback on user experience and learning effectiveness.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# BoLD: 高速かつチープな論争解決

BoLD: Fast and Cheap Dispute Resolution ( http://arxiv.org/abs/2404.10491v1 )

ライセンス: Link先を確認
Mario M. Alvarez, Henry Arneson, Ben Berger, Lee Bousfield, Chris Buckland, Yafah Edelman, Edward W. Felten, Daniel Goldman, Raul Jordan, Mahimna Kelkar, Akaki Mamageishvili, Harry Ng, Aman Sanghi, Victor Shoup, Terence Tsao, (参考訳) BoLDは、元々デプロイされたArbitrumの紛争解決プロトコルを置き換えるために設計された、新しい紛争解決プロトコルである。 このプロトコルとは異なり、BoLDは遅延攻撃に耐性がある。 この耐性は、オンチェーン計算コストが大幅に増加し、ステイクコストが低減されることなく達成される。

BoLD is a new dispute resolution protocol that is designed to replace the originally deployed Arbitrum dispute resolution protocol. Unlike that protocol, BoLD is resistant to delay attacks. It achieves this resistance without a significant increase in onchain computation costs and with reduced staking costs.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# BDAN:生成ブリッジドメインを用いたクロスオブジェクトモータ画像分類における電極間の時間差の緩和

BDAN: Mitigating Temporal Difference Across Electrodes in Cross-Subject Motor Imagery Classification via Generative Bridging Domain ( http://arxiv.org/abs/2404.10494v1 )

ライセンス: Link先を確認
Zhige Chen, Rui Yang, Mengjie Huang, Chengxuan Qin, Zidong Wang, (参考訳) 実験条件と条件の非反復性」と「被験者間の脳パターンの変動性」のため、セッションと電極間のデータ分布は、クロスオブジェクト運動画像(MI)研究において異なるため、最終的に分類モデルの性能が低下する。 既存の研究から体系的に要約し,本論文では,オブジェクト内およびオブジェクト間の両方のシナリオにおいて,新しい時間-電極データ分散問題について検討する。 本論文では,電極面におけるセッション間のデータ分散差を最小限に抑え,モデル性能の向上と向上を図るため,新しいブリッジング領域適応ネットワーク(BDAN)を提案する。 提案したBDANでは, 空間特徴抽出器を用いて全脳波データの深い特徴を抽出する。 得られた時空間的特徴により、特別に生成的ブリッジング領域が確立され、セッションを通してすべての被験者からデータをブリッジする。 セッションと電極間の差異は、カスタマイズされたブリッジ損失関数を用いて最小化され、既知の知識は構築されたブリッジドメインを介して自動的に転送される。 提案したBDANの有効性を示すため,公的な脳波データセットを用いて比較実験とアブレーション研究を行った。 総合的な比較結果は、他の高度なディープラーニングやドメイン適応手法と比較して、提案したBDANの優れた性能を示している。

Because of "the non-repeatability of the experiment settings and conditions" and "the variability of brain patterns among subjects", the data distributions across sessions and electrodes are different in cross-subject motor imagery (MI) studies, eventually reducing the performance of the classification model. Systematically summarised based on the existing studies, a novel temporal-electrode data distribution problem is investigated under both intra-subject and inter-subject scenarios in this paper. Based on the presented issue, a novel bridging domain adaptation network (BDAN) is proposed, aiming to minimise the data distribution difference across sessions in the aspect of the electrode, thus improving and enhancing model performance. In the proposed BDAN, deep features of all the EEG data are extracted via a specially designed spatial feature extractor. With the obtained spatio-temporal features, a special generative bridging domain is established, bridging the data from all the subjects across sessions. The difference across sessions and electrodes is then minimized using the customized bridging loss functions, and the known knowledge is automatically transferred through the constructed bridging domain. To show the effectiveness of the proposed BDAN, comparison experiments and ablation studies are conducted on a public EEG dataset. The overall comparison results demonstrate the superior performance of the proposed BDAN compared with the other advanced deep learning and domain adaptation methods.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# LAECIPS:IoTベースの知覚システムのための大規模ビジョンモデルによる適応型エッジクラウドコラボレーション

LAECIPS: Large Vision Model Assisted Adaptive Edge-Cloud Collaboration for IoT-based Perception System ( http://arxiv.org/abs/2404.10498v1 )

ライセンス: Link先を確認
Shijing Hu, Ruijun Deng, Xin Du, Zhihui Lu, Qiang Duan, Yi He, Shih-Chia Huang, Jie Wu, (参考訳) 近年の大規模視覚モデル(SAMなど)は、高い精度で知的知覚を促進する大きな可能性を享受している。 しかし、IoT環境のリソース制約は、そのような大規模なビジョンモデルをローカルにデプロイすることを制限する傾向にあり、推論遅延がかなり発生し、自律運転やロボティクスといったリアルタイムアプリケーションのサポートが困難になる。 大規模モデルの共同推論によるエッジクラウドのコラボレーションは、高い推論精度と低レイテンシを実現するための有望なアプローチを提供する。 しかし、既存のエッジクラウドコラボレーション手法はモデルアーキテクチャと密結合しており、異種IoT環境での動的データドリフトに適応できない。 この問題に対処するため,我々は,新たなエッジクラウドコラボレーションフレームワークであるLAECIPSを提案する。 LAECIPSでは、クラウド上の大きなビジョンモデルとエッジ上の軽量モデルの両方がプラグアンドプレイである。 我々は,高精度と低レイテンシの両方に最適化されたハードインプットマイニングに基づくエッジクラウドコラボレーション戦略を設計する。 我々は,大規模ビジョンモデルの監督のもと,エッジモデルとそのクラウドとのコラボレーション戦略を更新し,動的IoTデータストリームに対応することを提案する。 LAECIPSの理論解析は、その実現可能性を証明する。 実世界のデータセットを用いたロボットセマンティックセグメンテーションシステムで実施された実験によると、LAECIPSは、動的環境への適応性を向上しながら、最先端の競合相手である精度、レイテンシ、通信オーバーヘッドを上回ります。

Recent large vision models (e.g., SAM) enjoy great potential to facilitate intelligent perception with high accuracy. Yet, the resource constraints in the IoT environment tend to limit such large vision models to be locally deployed, incurring considerable inference latency thereby making it difficult to support real-time applications, such as autonomous driving and robotics. Edge-cloud collaboration with large-small model co-inference offers a promising approach to achieving high inference accuracy and low latency. However, existing edge-cloud collaboration methods are tightly coupled with the model architecture and cannot adapt to the dynamic data drifts in heterogeneous IoT environments. To address the issues, we propose LAECIPS, a new edge-cloud collaboration framework. In LAECIPS, both the large vision model on the cloud and the lightweight model on the edge are plug-and-play. We design an edge-cloud collaboration strategy based on hard input mining, optimized for both high accuracy and low latency. We propose to update the edge model and its collaboration strategy with the cloud under the supervision of the large vision model, so as to adapt to the dynamic IoT data streams. Theoretical analysis of LAECIPS proves its feasibility. Experiments conducted in a robotic semantic segmentation system using real-world datasets show that LAECIPS outperforms its state-of-the-art competitors in accuracy, latency, and communication overhead while having better adaptability to dynamic environments.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# 2ストリームサンプル蒸留によるロバスト雑音ラベル学習

Robust Noisy Label Learning via Two-Stream Sample Distillation ( http://arxiv.org/abs/2404.10499v1 )

ライセンス: Link先を確認
Sihan Bai, Sanping Zhou, Zheng Qin, Le Wang, Nanning Zheng, (参考訳) ノイズラベル学習は、ディープラーニングにおいて重要な役割を果たすノイズラベルの監督の下で堅牢なネットワークを学習することを目的としている。 既存の作業は、モデルトレーニングプロセス中にノイズラベルを扱うためにサンプル選択またはラベル修正を行う。 本稿では,より高品質なサンプルをクリーンなラベルで抽出し,ネットワークトレーニングの堅牢性を向上させるための,TSSD(Two-Stream Sample Distillation)と呼ばれる単純なサンプル選択フレームワークを設計する。 第一に、新規な並列サンプル分割(PSD)モジュールは、特徴空間におけるサンプル構造と損失空間におけるヒトの先行性について共同で検討することにより、十分な信頼できる正および負のサンプルを持つ特定のトレーニングセットを生成するように設計されている。 第二に、新しいメタサンプル精製(MSP)モジュールは、余分な黄金データを持つ強力なメタ分類器を学習することにより、残りの不確実なトレーニングセットから十分な半硬度サンプルをマイニングするように設計されている。 結果として、各イテレーションでネットワークを堅牢にトレーニングするためのノイズの多いトレーニングセットから、より高品質なサンプルが蒸留されるようになる。 CIFAR-10, CIFAR-100, Tiny-ImageNet, Clothing-1M を含む4つのベンチマークデータセットに対する大規模な実験により、我々の手法が競合相手に対して最先端の結果を得たことを示す。

Noisy label learning aims to learn robust networks under the supervision of noisy labels, which plays a critical role in deep learning. Existing work either conducts sample selection or label correction to deal with noisy labels during the model training process. In this paper, we design a simple yet effective sample selection framework, termed Two-Stream Sample Distillation (TSSD), for noisy label learning, which can extract more high-quality samples with clean labels to improve the robustness of network training. Firstly, a novel Parallel Sample Division (PSD) module is designed to generate a certain training set with sufficient reliable positive and negative samples by jointly considering the sample structure in feature space and the human prior in loss space. Secondly, a novel Meta Sample Purification (MSP) module is further designed to mine adequate semi-hard samples from the remaining uncertain training set by learning a strong meta classifier with extra golden data. As a result, more and more high-quality samples will be distilled from the noisy training set to train networks robustly in every iteration. Extensive experiments on four benchmark datasets, including CIFAR-10, CIFAR-100, Tiny-ImageNet, and Clothing-1M, show that our method has achieved state-of-the-art results over its competitors.
翻訳日:2024-04-17 17:03:46 公開日:2024-04-16
# 感情の刺激がプロンプトデザインに出会ったとき:自動プロンプトグラフィカルパラダイム

When Emotional Stimuli meet Prompt Designing: An Auto-Prompt Graphical Paradigm ( http://arxiv.org/abs/2404.10500v1 )

ライセンス: Link先を確認
Chenggian Ma, Xiangyu Zhao, Chunhui Zhang, Yanzhao Qin, Wentao Zhang, (参考訳) LLM(Large Language Models)の開発により、多くのプロンプトが提案され、それぞれに豊富な機能セットと独自のメリットがある。 本稿では,大規模言語モデル (LLM) のプロンプト語を刺激とフレームワークタイプに分類し,刺激とフレームワークのプロンプトを組み合わせたオートプロンプトグラフィカルパラダイム (APGP) を提案する。 このフレームワークは、感情刺激因子の自動生成と考察、問題抽象化におけるLLMの導出、解の生成の多様化、解答提供後の最適化、解の正確性を保証する自己検証を含む。 従来の刺激やフレームワークのプロンプトと比較して、このフレームワークは、APE作業にインスパイアされた自動化アプローチを採用することにより、手作業で設計されたプロンプトの制限を克服することで、両方の利点を統合する。 ruozhiba および BBH データセットの試験結果から,このフレームワークは問題解決における LLM の効率性と精度を効果的に向上し,新たな LLM の応用の道を開くことができることが示された。

With the development of Large Language Models (LLM), numerous prompts have been proposed, each with a rich set of features and their own merits. This paper summarizes the prompt words for large language models (LLMs), categorizing them into stimulating and framework types, and proposes an Auto-Prompt Graphical Paradigm(APGP) that combines both stimulating and framework prompts to enhance the problem-solving capabilities of LLMs across multiple domains, then exemplifies it with a framework that adheres to this paradigm. The framework involves automated prompt generation and consideration of emotion-stimulus factors, guiding LLMs in problem abstraction, diversified solutions generation, comprehensive optimization, and self-verification after providing answers, ensuring solution accuracy. Compared to traditional stimuli and framework prompts, this framework integrates the advantages of both by adopting automated approaches inspired by APE work, overcoming the limitations of manually designed prompts. Test results on the ruozhiba and BBH datasets demonstrate that this framework can effectively improve the efficiency and accuracy of LLMs in problem-solving, paving the way for new applications of LLMs.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# 自己監督型視覚的嗜好アライメント

Self-Supervised Visual Preference Alignment ( http://arxiv.org/abs/2404.10501v1 )

ライセンス: Link先を確認
Ke Zhu, Liang Zhao, Zheng Ge, Xiangyu Zhang, (参考訳) 本稿では,視覚言語モデル(VLM)において,教師なしの嗜好アライメントに向けた最初の試みを行う。 我々は、原画像と拡張画像のペアについて、選択された応答と拒否された応答を生成し、直接選好最適化による選好アライメントを行う。 イメージ入力を適切に設計した拡張は、VLMを誘導して偽の負の応答を生成するため、モデルがより堅牢で強力な答えから学習するのに役立つ。 パイプライン全体は、GPT4やアライメント中の人間の関与による監視をもはや必要とせず、コード行数で非常に効率的です。 LLaVA-Bench の複雑な推論では 8k のランダムなサンプルデータのみで GPT-4 に対して 90 % のスコアを達成し、複雑なマルチモーダルベンチマーク MM-Vet では LLaVA-7B/13B を 6.7 %/5.6 のスコアで改善する。 ビジュアライゼーションは、ユーザインテントとの整合性が改善されたことを示している。 アプローチの潜伏メカニズムを明らかにするために、一連のアブリケーションがしっかりと行われており、さらなるスケーリングの可能性も示している。 コードは利用可能です。

This paper makes the first attempt towards unsupervised preference alignment in Vision-Language Models (VLMs). We generate chosen and rejected responses with regard to the original and augmented image pairs, and conduct preference alignment with direct preference optimization. It is based on a core idea: properly designed augmentation to the image input will induce VLM to generate false but hard negative responses, which helps the model to learn from and produce more robust and powerful answers. The whole pipeline no longer hinges on supervision from GPT4 or human involvement during alignment, and is highly efficient with few lines of code. With only 8k randomly sampled unsupervised data, it achieves 90\% relative score to GPT-4 on complex reasoning in LLaVA-Bench, and improves LLaVA-7B/13B by 6.7\%/5.6\% score on complex multi-modal benchmark MM-Vet. Visualizations shows its improved ability to align with user-intentions. A series of ablations are firmly conducted to reveal the latent mechanism of the approach, which also indicates its potential towards further scaling. Code will be available.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# 深層学習に基づく医用テキストの感性分析

A Sentiment Analysis of Medical Text Based on Deep Learning ( http://arxiv.org/abs/2404.10503v1 )

ライセンス: Link先を確認
Yinan Chen, (参考訳) 自然言語処理(NLP)の分野は、ディープラーニング技術の急速な発展で大きな進歩を遂げている。 テキスト感情分析における研究の方向性の1つは、医療用テキストの感情分析であり、臨床診断への応用に大きな可能性を秘めている。 しかし、現在医療分野には十分なテキストデータセットが不足しており、感情分析の有効性は様々なモデル設計アプローチの影響を大きく受けており、課題が提示されている。 そこで本研究では,変換器(BERT)の双方向エンコーダ表現を基本的な事前学習モデルとし,コンボリューショナルニューラルネットワーク(CNN),完全連結ネットワーク(FCN),グラフ畳み込みネットワーク(GCN)などのモジュールを出力層で実験する。 METS-CoVデータセットを用いて実験と解析を行い、異なるディープラーニングネットワークの統合後のトレーニング性能について検討した。 その結果、CNNモデルは、BERTのような事前訓練されたモデルと組み合わせて、より小さな医療用テキストデータセットでトレーニングされた場合、他のネットワークよりも優れていたことが示唆された。 本研究は、医療領域における効果的な感情分析を実現する上でのモデル選択の重要性を強調し、より効率的なモデルアーキテクチャを開発するための今後の研究の参考となる。

The field of natural language processing (NLP) has made significant progress with the rapid development of deep learning technologies. One of the research directions in text sentiment analysis is sentiment analysis of medical texts, which holds great potential for application in clinical diagnosis. However, the medical field currently lacks sufficient text datasets, and the effectiveness of sentiment analysis is greatly impacted by different model design approaches, which presents challenges. Therefore, this paper focuses on the medical domain, using bidirectional encoder representations from transformers (BERT) as the basic pre-trained model and experimenting with modules such as convolutional neural network (CNN), fully connected network (FCN), and graph convolutional networks (GCN) at the output layer. Experiments and analyses were conducted on the METS-CoV dataset to explore the training performance after integrating different deep learning networks. The results indicate that CNN models outperform other networks when trained on smaller medical text datasets in combination with pre-trained models like BERT. This study highlights the significance of model selection in achieving effective sentiment analysis in the medical domain and provides a reference for future research to develop more efficient model architectures.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# RLKWiCデータセットによる実生活知識作業のデータ収集

Data Collection of Real-Life Knowledge Work in Context: The RLKWiC Dataset ( http://arxiv.org/abs/2404.10505v1 )

ライセンス: Link先を確認
Mahta Bakhshizadeh, Christian Jilek, Markus Schröder, Heiko Maus, Andreas Dengel, (参考訳) 長年にわたり、心理学的幸福から個人的知識アシスタントの開発に至るまで、知識労働者の生産性を高めるための様々なアプローチが採用されてきた。 この研究領域における重要な課題は、現実世界の知識労働を反映した包括的で公開可能なデータセットが存在しないことである。 少数のデータセットが存在するが、その多くはアクセスや重要な情報次元の欠如に制限されており、ドメインにおける意味のある比較とベンチマークを複雑にしている。 本稿では,8人の参加者のコンピュータインタラクションを2ヶ月にわたって監視することから得られた,コンテキストにおけるリアルライフ知識ワークの新たなデータセットであるRLKWiCを提案する。 RLKWiCは、多くの重要な情報次元(説明コンテキスト、テキストの内容、セマンティックスなど)を提供する最初の公開データセットとして、個人情報管理領域における研究ギャップに対処し、ユーザの振る舞いをモデル化するための貴重な洞察を提供しようとしている。

Over the years, various approaches have been employed to enhance the productivity of knowledge workers, from addressing psychological well-being to the development of personal knowledge assistants. A significant challenge in this research area has been the absence of a comprehensive, publicly accessible dataset that mirrors real-world knowledge work. Although a handful of datasets exist, many are restricted in access or lack vital information dimensions, complicating meaningful comparison and benchmarking in the domain. This paper presents RLKWiC, a novel dataset of Real-Life Knowledge Work in Context, derived from monitoring the computer interactions of eight participants over a span of two months. As the first publicly available dataset offering a wealth of essential information dimensions (such as explicated contexts, textual contents, and semantics), RLKWiC seeks to address the research gap in the personal information management domain, providing valuable insights for modeling user behavior.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# 白人男性、黒人女性、ジェンダー、ラシアル、インターセクションのバイアス発見

White Men Lead, Black Women Help: Uncovering Gender, Racial, and Intersectional Bias in Language Agency ( http://arxiv.org/abs/2404.10508v1 )

ライセンス: Link先を確認
Yixin Wan, Kai-Wei Chang, (参考訳) 社会的偏見は言語機関に現れることがある。 例えば、白人の個人や男性は「芸術的」で達成志向と表現されることが多いが、黒人の個人や女性はしばしば「共同体」と表現される。 本研究では,人文・大規模言語モデル(LLM)生成テキストの社会的偏見を研究する上で,エージェンシーを重要な側面として位置づける。 文レベルで「言語エージェンシー」を正確に測定するために,信頼度の高いエージェンシー分類器を訓練するための言語エージェンシー分類データセットを提案する。 次に、エージェント分類器を用いて、人文やLLMで書かれたテキストの6つのデータセットに、バイオグラフィー、教授レビュー、参照レターを含む、注目すべき言語機関のバイアスを明らかにする。 これまでのNLP研究は単一次元に焦点をあてていたが、ジェンダー、人種、交差点のアイデンティティにおける言語エージェンシーバイアスを包括的に調査した。 本研究では,(1)人文テキストにおける言語エージェンシーのバイアスが実世界の社会観測と一致していること,(2) LLM生成テキストは人文テキストよりも言語エージェンシーのバイアスが著しく高いこと,(3)少数民族を対象にした言語エージェンシーの批判的バイアスは,例えば,黒人女性を表現するために使用される言語は,データセット全体で最も低いエージェンシーのレベルを示すことを観察する。 以上の結果から,言語エージェントのレンズによる人文やLLM文の社会的偏見が複雑であること,社会文脈におけるLLM世代の使用を精査せずに警告すること,などが判明した。

Social biases can manifest in language agency. For instance, White individuals and men are often described as "agentic" and achievement-oriented, whereas Black individuals and women are frequently described as "communal" and as assisting roles. This study establishes agency as an important aspect of studying social biases in both human-written and Large Language Model (LLM)-generated texts. To accurately measure "language agency" at sentence level, we propose a Language Agency Classification dataset to train reliable agency classifiers. We then use an agency classifier to reveal notable language agency biases in 6 datasets of human- or LLM-written texts, including biographies, professor reviews, and reference letters. While most prior NLP research on agency biases focused on single dimensions, we comprehensively explore language agency biases in gender, race, and intersectional identities. We observe that (1) language agency biases in human-written texts align with real-world social observations; (2) LLM-generated texts demonstrate remarkably higher levels of language agency bias than human-written texts; and (3) critical biases in language agency target people of minority groups--for instance, languages used to describe Black females exhibit the lowest level of agency across datasets. Our findings reveal intricate social biases in human- and LLM-written texts through the lens of language agency, warning against using LLM generations in social contexts without scrutiny.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# 衛星の深部拡散モデルを用いた4時間雷雨流

Four-hour thunderstorm nowcasting using deep diffusion models of satellite ( http://arxiv.org/abs/2404.10512v1 )

ライセンス: Link先を確認
Kuai Dai, Xutao Li, Junying Fang, Yunming Ye, Demin Yu, Di Xian, Danyu Qin, (参考訳) 対流(雷雨)は数時間で急速に発展し、非常に破壊的であり、流し込みにとって大きな挑戦となり、自然と社会に重大な損失をもたらす。 人工知能(AI)ベースの手法の出現後、対流流速報は急速に進歩し、物理学に基づく数値天気予報やその他の従来の手法よりも性能が優れている。 しかし、そのリードタイムとカバー範囲は依然として多くを望んでおらず、災害緊急対応の必要性をほとんど満たさないままである。 本稿では,AIを用いた対流流流速報知システムを構築するために,衛星の深部拡散モデル(DDMS)を提案する。 一方、拡散過程を用いて、対流雲の複雑な時空間進化パターンを効果的にシミュレートし、予測リード時間を大幅に改善する。 一方、静止衛星の明るさ温度データを利用して、惑星規模の予測を行う。 FengYun-4A衛星を用いた長期試験および客観的検証において,本システムは,最大4時間,広範囲(約20,000,000km2),顕著な精度,高分解能(約15分4km)の有効対流を初めて達成した。 その性能は、既存のモデルと比較して、対流キャスティングの新たな高さに達した。 適用面では,本システムは効率よく動作する(4時間の対流を8分で予測)。 さらに,この結果から,対流雲予測における拡散モデルの顕著な機能と,AI技術によって強化された静止衛星データの価値を強調した。

Convection (thunderstorm) develops rapidly within hours and is highly destructive, posing a significant challenge for nowcasting and resulting in substantial losses to nature and society. After the emergence of artificial intelligence (AI)-based methods, convection nowcasting has experienced rapid advancements, with its performance surpassing that of physics-based numerical weather prediction and other conventional approaches. However, the lead time and coverage of it still leave much to be desired and hardly meet the needs of disaster emergency response. Here, we propose a deep diffusion model of satellite (DDMS) to establish an AI-based convection nowcasting system. On one hand, it employs diffusion processes to effectively simulate complicated spatiotemporal evolution patterns of convective clouds, significantly improving the forecast lead time. On the other hand, it utilizes geostationary satellite brightness temperature data, thereby achieving planetary-scale forecast coverage. During long-term tests and objective validation based on the FengYun-4A satellite, our system achieves, for the first time, effective convection nowcasting up to 4 hours, with broad coverage (about 20,000,000 km2), remarkable accuracy, and high resolution (15 minutes; 4 km). Its performance reaches a new height in convection nowcasting compared to the existing models. In terms of application, our system operates efficiently (forecasting 4 hours of convection in 8 minutes), and is highly transferable with the potential to collaborate with multiple satellites for global convection nowcasting. Furthermore, our results highlight the remarkable capabilities of diffusion models in convective clouds forecasting, as well as the significant value of geostationary satellite data when empowered by AI technologies.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# CoTAR:多レベルの粒度を持つ連鎖帰属推論

CoTAR: Chain-of-Thought Attribution Reasoning with Multi-level Granularity ( http://arxiv.org/abs/2404.10513v1 )

ライセンス: Link先を確認
Moshe Berchansky, Daniel Fleischer, Moshe Wasserblat, Peter Izsak, (参考訳) QAタスクの最先端性能は、現在、Large Language Models (LLMs) を用いたシステムによって達成されているが、これらのモデルは、その応答において情報を幻覚させる傾向がある。 1つのアプローチは、与えられた入力から出力への属性を組み込むことで生成プロセスの強化に焦点を当てる。 しかし、適切な属性を特定し、ソースに対する精度を検証するという課題は、そのようなシステムを評価する上で大幅な改善を必要とする複雑な作業である。 本稿では、属性の精度を高めるために、属性指向のチェーン・オブ・ソート推論手法を提案する。 このアプローチは帰属中心の出力を生成するための推論プロセスに焦点を当てる。 GPT-4を用いた2つの文脈付き質問応答データセットの評価により,属性の精度と正確性が改善された。 さらに, 微調整法と組み合わせることで, 2つの小型LCMの応答と帰属精度が向上し, GPT-4より優れる可能性が示唆された。

State-of-the-art performance in QA tasks is currently achieved by systems employing Large Language Models (LLMs), however these models tend to hallucinate information in their responses. One approach focuses on enhancing the generation process by incorporating attribution from the given input to the output. However, the challenge of identifying appropriate attributions and verifying their accuracy against a source is a complex task that requires significant improvements in assessing such systems. We introduce an attribution-oriented Chain-of-Thought reasoning method to enhance the accuracy of attributions. This approach focuses the reasoning process on generating an attribution-centric output. Evaluations on two context-enhanced question-answering datasets using GPT-4 demonstrate improved accuracy and correctness of attributions. In addition, the combination of our method with finetuning enhances the response and attribution accuracy of two smaller LLMs, showing their potential to outperform GPT-4 in some cases.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# 大規模重複問題に対する差分群法の改良

An Enhanced Differential Grouping Method for Large-Scale Overlapping Problems ( http://arxiv.org/abs/2404.10515v1 )

ライセンス: Link先を確認
Maojiang Tian, Mingke Chen, Wei Du, Yang Tang, Yaochu Jin, (参考訳) 大規模重なり合う問題は実用工学的応用においてよく知られており、共有変数の存在により最適化の課題は著しく増幅されている。 分解に基づく協調的共進化(CC)アルゴリズムは大規模重複問題に対処する上で有望な性能を示した。 しかし、重なり合う問題に対して設計された現在のCCフレームワークは、重なり合う問題構造を特定するためのグループ化手法に依存しており、大規模な重なり合う問題に対する現在のグループ化手法は、精度と効率の両方を同時に考慮することができない。 本稿では,OEDGと呼ばれる大規模重複問題に対する2段階強化グループ化手法を提案する。 第一段階では、OEDGは有限差分原理に基づくグループ化法を用いて、すべての部分成分と共有変数を識別する。 第2段階では,サブコンポーネント結合検出 (SUD) とサブコンポーネント検出 (SD) という2つのグループ化精細化手法を提案し,グループ化結果を向上・改善する。 SUDは、前段階で得られたサブコンポーネントと共有変数の情報を調べ、SDは不正確なグループ化結果を補正する。 提案するOEDGの性能をよりよく検証するために,トポロジ構造,重なり度,分離性など,大規模重複問題の諸特性を考察した,一連の新しいベンチマークを提案する。 OEDGは計算資源を減らしながら、大規模重複問題の種類を正確にグループ化できることを示した。 最後に,提案するOEDGが大規模重複問題の最適化性能を効果的に向上できることを実証的に検証した。

Large-scale overlapping problems are prevalent in practical engineering applications, and the optimization challenge is significantly amplified due to the existence of shared variables. Decomposition-based cooperative coevolution (CC) algorithms have demonstrated promising performance in addressing large-scale overlapping problems. However, current CC frameworks designed for overlapping problems rely on grouping methods for the identification of overlapping problem structures and the current grouping methods for large-scale overlapping problems fail to consider both accuracy and efficiency simultaneously. In this article, we propose a two-stage enhanced grouping method for large-scale overlapping problems, called OEDG, which achieves accurate grouping while significantly reducing computational resource consumption. In the first stage, OEDG employs a grouping method based on the finite differences principle to identify all subcomponents and shared variables. In the second stage, we propose two grouping refinement methods, called subcomponent union detection (SUD) and subcomponent detection (SD), to enhance and refine the grouping results. SUD examines the information of the subcomponents and shared variables obtained in the previous stage, and SD corrects inaccurate grouping results. To better verify the performance of the proposed OEDG, we propose a series of novel benchmarks that consider various properties of large-scale overlapping problems, including the topology structure, overlapping degree, and separability. Extensive experimental results demonstrate that OEDG is capable of accurately grouping different types of large-scale overlapping problems while consuming fewer computational resources. Finally, we empirically verify that the proposed OEDG can effectively improve the optimization performance of diverse large-scale overlapping problems.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# MobileNetV4 - モバイルエコシステムのためのユニバーサルモデル

MobileNetV4 - Universal Models for the Mobile Ecosystem ( http://arxiv.org/abs/2404.10518v1 )

ライセンス: Link先を確認
Danfeng Qin, Chas Leichner, Manolis Delakis, Marco Fornoni, Shixin Luo, Fan Yang, Weijun Wang, Colby Banbury, Chengxi Ye, Berkin Akin, Vaibhav Aggarwal, Tenghui Zhu, Daniele Moro, Andrew Howard, (参考訳) 次世代のMobileNetsはMobileNetV4(MNv4)と呼ばれ、モバイルデバイスの汎用的なアーキテクチャ設計を特徴としている。 Inverted Bottleneck (IB)、ConvNext、Feed Forward Network (FFN)、Exptra Depthwise (ExtraDW)を融合した統一・柔軟な構造であるUniversal Inverted Bottleneck (UIB)検索ブロックを導入する。 UIBとともに、モバイルアクセラレータ用に調整されたアテンションブロックであるMobile MQAを紹介します。 最適化されたニューラルネットワーク検索(NAS)レシピも導入され、MNv4検索の有効性が向上した。 UIB、Mobile MQA、洗練されたNASレシピの統合により、主にモバイルCPU、DSP、GPU、さらにはApple Neural EngineやGoogle Pixel EdgeTPUといった特別なアクセラレータでパレートが最適であるMNv4モデルの新たなスイートが実現した。 最後に, さらに精度を高めるため, 新しい蒸留技術を導入する。 この技術によって強化された我々のMNv4-Hybrid-Largeモデルは、Pixel 8 EdgeTPUランタイムがわずか3.8msの87%のImageNet-1Kの精度を提供する。

We present the latest generation of MobileNets, known as MobileNetV4 (MNv4), featuring universally efficient architecture designs for mobile devices. At its core, we introduce the Universal Inverted Bottleneck (UIB) search block, a unified and flexible structure that merges Inverted Bottleneck (IB), ConvNext, Feed Forward Network (FFN), and a novel Extra Depthwise (ExtraDW) variant. Alongside UIB, we present Mobile MQA, an attention block tailored for mobile accelerators, delivering a significant 39% speedup. An optimized neural architecture search (NAS) recipe is also introduced which improves MNv4 search effectiveness. The integration of UIB, Mobile MQA and the refined NAS recipe results in a new suite of MNv4 models that are mostly Pareto optimal across mobile CPUs, DSPs, GPUs, as well as specialized accelerators like Apple Neural Engine and Google Pixel EdgeTPU - a characteristic not found in any other models tested. Finally, to further boost accuracy, we introduce a novel distillation technique. Enhanced by this technique, our MNv4-Hybrid-Large model delivers 87% ImageNet-1K accuracy, with a Pixel 8 EdgeTPU runtime of just 3.8ms.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# SPVLoc: 見知らぬ環境下での6次元カメラローカライゼーションのためのセマンティックパノラマビューポートマッチング

SPVLoc: Semantic Panoramic Viewport Matching for 6D Camera Localization in Unseen Environments ( http://arxiv.org/abs/2404.10527v1 )

ライセンス: Link先を確認
Niklas Gard, Anna Hilsmann, Peter Eisert, (参考訳) 本稿では,クエリ画像の6次元カメラポーズを正確に決定するグローバル屋内ローカライズ手法であるSPVLocについて述べる。 提案手法では,室内環境のパノラマ的セマンティックなレイアウト表現のセット内に,RGB画像として与えられる視点カメラのビューポートをローカライズする手法を用いている。 パノラマは、ドアや窓のアノテーションとともに、部屋の形状に関する近似的な構造情報のみを含む、テクスチャのない3D参照モデルから描画される。 簡単な畳み込みネットワーク構造により,画像からパノラマ,最終的には画像からモデルへのマッチングが実現可能であることを示す。 ビューポート分類スコアを用いて、参照パノラマをランク付けし、クエリ画像のベストマッチを選択する。 そして、選択したパノラマとクエリ画像との間に6D相対的なポーズを推定する。 我々の実験は、このアプローチがドメインギャップを効率的に橋渡しするだけでなく、トレーニングデータの一部ではない未確認シーンにもうまく一般化することを示した。 さらに、最先端の手法に比べて位置決め精度が優れており、カメラポーズの自由度も高いと見積もっている。 ソースコードをhttps://github.com/fraunhoferhhi/spvlocで公開します。

In this paper, we present SPVLoc, a global indoor localization method that accurately determines the six-dimensional (6D) camera pose of a query image and requires minimal scene-specific prior knowledge and no scene-specific training. Our approach employs a novel matching procedure to localize the perspective camera's viewport, given as an RGB image, within a set of panoramic semantic layout representations of the indoor environment. The panoramas are rendered from an untextured 3D reference model, which only comprises approximate structural information about room shapes, along with door and window annotations. We demonstrate that a straightforward convolutional network structure can successfully achieve image-to-panorama and ultimately image-to-model matching. Through a viewport classification score, we rank reference panoramas and select the best match for the query image. Then, a 6D relative pose is estimated between the chosen panorama and query image. Our experiments demonstrate that this approach not only efficiently bridges the domain gap but also generalizes well to previously unseen scenes that are not part of the training data. Moreover, it achieves superior localization accuracy compared to the state of the art methods and also estimates more degrees of freedom of the camera pose. We will make our source code publicly available at https://github.com/fraunhoferhhi/spvloc .
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# 格子トラップされた双極子原子のバイパートライトスピン相関の測定

Measuring bipartite spin correlations of lattice-trapped dipolar atoms ( http://arxiv.org/abs/2404.10531v1 )

ライセンス: Link先を確認
Youssef Aziz Alaoui, Sean R. Muleady, Edwin Chaparro, Youssef Trifa, Ana Maria Rey, Tommaso Roscilde, Bruno Laburthe-Tolra, Laurent Vernac, (参考訳) 3次元光学格子に閉じ込められたスピン3クロム原子のメソスコピックアレイの交互平面間の相関関係にアクセスするために,超格子構造を用いた分割手法を実証した。 この方法を用いて、長距離双極子相互作用によって引き起こされる平衡外ダイナミクスが、2つの空間的に分離されたサブシステム間のスピン反相関をもたらすことを観察する。 両極間相互作用の異方性と格子構造との微妙な相互作用は, 単一部位のアドレッシングを必要としない。 この結果と, 微視的スケールでの相関関係の解明に使用した, 留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置留置 高温解析モデルと比較すると、高い負のスピン温度での量子熱化が明らかになる。

We demonstrate a bipartition technique using a super-lattice architecture to access correlations between alternating planes of a mesoscopic array of spin-3 chromium atoms trapped in a 3D optical lattice. Using this method, we observe that out-of-equilibrium dynamics driven by long-range dipolar interactions lead to spin anti-correlations between the two spatially separated subsystems. Our bipartite measurements reveal a subtle interplay between the anisotropy of the 3D dipolar interactions and that of the lattice structure, without requiring single-site addressing. We compare our results to theoretical predictions based on a truncated cumulant expansion and a new cluster semi-classical method that we use to investigate correlations at the microscopic scale. Comparison with a high-temperature analytical model reveals quantum thermalization at a high negative spin temperature.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# 騒音測定の浄化と密閉の忠実な蒸留

Purification of Noisy Measurements and Faithful Distillation of Entanglement ( http://arxiv.org/abs/2404.10538v1 )

ライセンス: Link先を確認
Jaemin Kim, Jiyoung Yun, Joonwoo Bae, (参考訳) 一般量子演算を構成する量子測度が特にノイズとなるような,ノイズを伴う現実的なシナリオにおけるエンタングルメント蒸留について考察する。 本報告では, ノイズ測定を浄化するプロトコルについて述べるとともに, 浄化の助けを借りて, 不完全な局所操作を蒸留に利用できることを示す。 提案手法は, 実装時のノイズに対して堅牢であることを示すとともに, 実用化時の浄化を解析し, 測定およびゲート誤差を最大10%まで低減するために, 2つの追加量子ビットによる浄化は, 絡み合わせを蒸留するのに費用対効果があることを示唆する。 精製プロトコルは、現在利用可能な量子技術で実現可能であり、絡み合いアプリケーションに容易に適用できる。

We consider entanglement distillation in a realistic scenario with noisy operations in which quantum measurements that constitute a general quantum operation are particularly noisy. We present a protocol for purifying noisy measurements and show that with the help of the purification, imperfect local operations can be used to distill entanglement. We show that the purification protocol is robust against noise in implementation and analyze the purification in a practical realization: for measurement and gate errors up to 10%, we suggest that the purification with two additional qubits is cost-effective for distilling entanglement. The purification protocol is feasible with currently available quantum technologies and readily applied to entanglement applications.
翻訳日:2024-04-17 16:53:59 公開日:2024-04-16
# Polkadotのトランザクションエコシステムの特徴:方法論、ツール、洞察

Characterizing Polkadot's Transactions Ecosystem: methodology, tools, and insights ( http://arxiv.org/abs/2404.10543v1 )

ライセンス: Link先を確認
Maurantonio Caprolu, Roberto Di Pietro, Flavio Lombardi, Elia Onofri, (参考訳) 暗号(通貨)プロジェクトの成長ポテンシャルは、基礎技術によって引き起こされるユースケースによって測定できる。 しかしながら、これらのプロジェクトはたいてい分散しており、フィードバックスキームは弱い。 したがって、彼らの健康のプロキシとして広く使われているメトリクスは、トランザクションの数と関連するボリュームです。 それでも、そのような指標は操作の対象となり得る(暗号市場は規制外であり、そのようなリスクを増大させる)。 引用されたギャップに対処するために、我々は、大きな暗号通貨取引グラフを処理する包括的な方法論を設計し、興味のあるユーザのアドレスをクラスタ化した後、クラスタ間の相互作用をハイライトするネットワークのコンパクトな表現を導出します。 このケースは、相互運用性とスケーラビリティに対する先駆的なアプローチによって、デジタル通貨の世界において大きな注目を集めています。 しかし、これまでエンドユーザーによって広く適用されたユースケースの数や範囲についてはほとんど分かっていない。 この種の質問に対する答えは、Pokadot(あるいは分析された暗号プロジェクト)を、繁栄するエコシステムから、説得力のあるユースケースのない投機的コインまでの範囲のパレットにマッピングする、ということだ。 以上の結果から,暗号通貨取引所はポロキャットネットワークに大きな影響を与え,台帳内のアドレスの40%近くを保有し,取引の80%以上を吸収していることが明らかとなった。 さらに、取引量の増加(→20%)は、少数の著名な取引所間での強い相互関係を浮き彫りにしており、これらのアクターの行動についてさらなる調査を行い、洗剤取引のような潜在的な非倫理的活動を明らかにする。 これらの結果は、高いレベルのスケーラビリティと適応性によって特徴づけられるが、同時に、現在使用されているメトリクスの欠点から免れることができる。

The growth potential of a crypto(currency) project can be measured by the use cases spurred by the underlying technology. However, these projects are usually distributed, with a weak feedback schemes. Hence, a metric that is widely used as a proxy for their healthiness is the number of transactions and related volumes. Nevertheless, such a metric can be subject to manipulation (the crypto market being an unregulated one magnifies such a risk). To address the cited gap we design a comprehensive methodology to process large cryptocurrency transaction graphs that, after clustering user addresses of interest, derives a compact representation of the network that highlights clusters interactions. To show the viability of our solution, we bring forward a use case centered on Polkadot, which has gained significant attention in the digital currency landscape due to its pioneering approach to interoperability and scalability. However, little is known about how many and to what extent its wide range of enabled use cases have been adopted by end-users so far. The answer to this type of question means mapping Polkadot (or any analyzed crypto project) on a palette that ranges from a thriving ecosystem to a speculative coin without compelling use cases. Our findings demonstrate that crypto exchanges exert considerable influence on the Polkadot network, owning nearly 40% of all addresses in the ledger and absorbing at least 80% of all transactions. In addition, the high volume of inter-exchange transactions (> 20%) underscores the strong interconnections among just a couple of prominent exchanges, prompting further investigations into the behavior of these actors to uncover potential unethical activities, such as wash trading. These results, while characterized by a high level of scalability and adaptability, are at the same time immune from the drawbacks of currently used metrics.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# 温度スタート変分量子ポリシーイテレーション

Warm-Start Variational Quantum Policy Iteration ( http://arxiv.org/abs/2404.10546v1 )

ライセンス: Link先を確認
Nico Meyer, Jakob Murauer, Alexander Popov, Christian Ufrecht, Axel Plinge, Christopher Mutschler, Daniel D. Scherer, (参考訳) 強化学習は、非常に複雑な意思決定シナリオにおける最適な行動を決定するための強力なフレームワークである。 この目的は、典型的には大きな線形方程式系を解く必要があるポリシー反復を用いて達成できる。 NISQ互換の量子化サブルーチンを用いて,変分量子ポリシー反復(VarQPI)アルゴリズムを提案する。 そのスケーラビリティは、汎用的な強化学習環境の構造の分析によって支えられ、ユーティリティスケールの量子コンピュータによる潜在的な量子優位性の基礎を築いた。 さらに、リソースオーバーヘッドを大幅に削減するウォームスタート初期化変種(WS-VarQPI)を導入する。 このアルゴリズムは、256×256次元線形系を基礎とする大規模なフロズンレイク環境を解き、その実用的堅牢性を示している。

Reinforcement learning is a powerful framework aiming to determine optimal behavior in highly complex decision-making scenarios. This objective can be achieved using policy iteration, which requires to solve a typically large linear system of equations. We propose the variational quantum policy iteration (VarQPI) algorithm, realizing this step with a NISQ-compatible quantum-enhanced subroutine. Its scalability is supported by an analysis of the structure of generic reinforcement learning environments, laying the foundation for potential quantum advantage with utility-scale quantum computers. Furthermore, we introduce the warm-start initialization variant (WS-VarQPI) that significantly reduces resource overhead. The algorithm solves a large FrozenLake environment with an underlying 256x256-dimensional linear system, indicating its practical robustness.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# 部分的ネットワーク情報との干渉によるA/Bテスト

A/B testing under Interference with Partial Network Information ( http://arxiv.org/abs/2404.10547v1 )

ライセンス: Link先を確認
Shiv Shankar, Ritwik Sinha, Yash Chandak, Saayan Mitra, Madalina Fiterau, (参考訳) A/Bテストは、社会的つながりを持つ可能性のある被験者に対して実施する必要があることが多い。 例えば、ソーシャルメディアでの実験や、疫病の拡散を抑えるための医療と社会の介入などです。 このような状況下では、ランダム化比較試験のSUTVA仮定は、ネットワーク干渉や、グループAに対する治療がコントロールグループBに影響を及ぼす可能性があり、また、基礎となるソーシャルネットワークが正確に分かっていれば、グローバル平均治療効果(GATE)を適切に評価するためのA/Bテストの実施方法が実証されている。 しかし、実際には、正確な基盤となるネットワークに関する知識を得ることは不可能であることが多い。 本稿では, この仮定を緩和し, GATE を識別できる新しい推定器である UNITE を提案する。 理論解析と広範な実験により,提案手法は標準推定器よりも優れた性能を示した。

A/B tests are often required to be conducted on subjects that might have social connections. For e.g., experiments on social media, or medical and social interventions to control the spread of an epidemic. In such settings, the SUTVA assumption for randomized-controlled trials is violated due to network interference, or spill-over effects, as treatments to group A can potentially also affect the control group B. When the underlying social network is known exactly, prior works have demonstrated how to conduct A/B tests adequately to estimate the global average treatment effect (GATE). However, in practice, it is often impossible to obtain knowledge about the exact underlying network. In this paper, we present UNITE: a novel estimator that relax this assumption and can identify GATE while only relying on knowledge of the superset of neighbors for any subject in the graph. Through theoretical analysis and extensive experiments, we show that the proposed approach performs better in comparison to standard estimators.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# 畳み込みニューラルネットワークを用いた3次元磁気共鳴画像データにおける前立腺癌の分類

Classification of Prostate Cancer in 3D Magnetic Resonance Imaging Data based on Convolutional Neural Networks ( http://arxiv.org/abs/2404.10548v1 )

ライセンス: Link先を確認
Malte Rippa, Ruben Schulze, Marian Himstedt, Felice Burn, (参考訳) 前立腺癌は、世界中の男性の間で一般的に診断されるがん性疾患である。 マルチパラメトリック磁気共鳴トモグラフィーやガイドバイオプシーのような最新の技術でさえ、前立腺がんの診断には時間がかかり、高度に訓練された専門家を必要としている。 本稿では,MRI 配列に悪性病変があるか否かを確実に分類する能力について,異なる畳み込みニューラルネットワーク (CNN) の評価を行った。 3次元画像データのためのResNet、ConvNet、ConvNeXtの実装を訓練し評価する。 モデルは、異なるデータ拡張テクニック、学習率、オプティマイザを使用してトレーニングされる。 データは、Cantonal Hospital Aarauが提供するプライベートデータセットから取得される。 最高の結果はResNet3Dによって達成され、平均精度スコアは0.4583、AUC ROCスコアは0.6214となった。

Prostate cancer is a commonly diagnosed cancerous disease among men world-wide. Even with modern technology such as multi-parametric magnetic resonance tomography and guided biopsies, the process for diagnosing prostate cancer remains time consuming and requires highly trained professionals. In this paper, different convolutional neural networks (CNN) are evaluated on their abilities to reliably classify whether an MRI sequence contains malignant lesions. Implementations of a ResNet, a ConvNet and a ConvNeXt for 3D image data are trained and evaluated. The models are trained using different data augmentation techniques, learning rates, and optimizers. The data is taken from a private dataset, provided by Cantonal Hospital Aarau. The best result was achieved by a ResNet3D, yielding an average precision score of 0.4583 and AUC ROC score of 0.6214.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# クラッタ問題におけるELBO勾配の解析近似

Analytical Approximation of the ELBO Gradient in the Context of the Clutter Problem ( http://arxiv.org/abs/2404.10550v1 )

ライセンス: Link先を確認
Roumen Nikolaev Popov, (参考訳) 統計モデルがベイズネットワークであるような変分推論問題におけるエビデンス下界(ELBO)の勾配を近似する解析解を提案する。 この手法は、勾配演算子を期待値内に移動させるために再パラメータ化手法を採用し、確率が観測データよりも分解されるため、確率係数のガウス分布よりも一般的にはコンパクトに支持されるという仮定に依存する。 これにより、個々の確率因子の効率的な局所近似が可能となり、勾配予想を定義する積分に対する解析解が導かれる。 ELBOを最大化するためのEM(Expectation Maximization)アルゴリズムにおいて,提案した勾配近似を期待ステップとして統合し,ラプラス近似,期待伝搬,平均場変分推論などのベイズ推論における古典的決定論的アプローチに対して検証する。 提案手法は線形計算複雑性とともに精度と収束率を示す。

We propose an analytical solution for approximating the gradient of the Evidence Lower Bound (ELBO) in variational inference problems where the statistical model is a Bayesian network consisting of observations drawn from a mixture of a Gaussian distribution embedded in unrelated clutter, known as the clutter problem. The method employs the reparameterization trick to move the gradient operator inside the expectation and relies on the assumption that, because the likelihood factorizes over the observed data, the variational distribution is generally more compactly supported than the Gaussian distribution in the likelihood factors. This allows efficient local approximation of the individual likelihood factors, which leads to an analytical solution for the integral defining the gradient expectation. We integrate the proposed gradient approximation as the expectation step in an EM (Expectation Maximization) algorithm for maximizing ELBO and test against classical deterministic approaches in Bayesian inference, such as the Laplace approximation, Expectation Propagation and Mean-Field Variational Inference. The proposed method demonstrates good accuracy and rate of convergence together with linear computational complexity.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# 学習の進化: 創造的AIが高等教育に与える影響を評価する

The Evolution of Learning: Assessing the Transformative Impact of Generative AI on Higher Education ( http://arxiv.org/abs/2404.10551v1 )

ライセンス: Link先を確認
Stefanie Krause, Bhumi Hitesh Panchal, Nikhil Ubhe, (参考訳) ChatGPTのような生成人工知能(Generative Artificial Intelligence, GAI)モデルは、人気が高まり、2ヶ月で1億人のアクティブユーザを惹きつけ、毎日1000万のクエリを生成する。 この顕著な採用にもかかわらず、この革新的な技術が高等教育にどの程度影響するかについては、まだ理解が限られている。 本研究では,GAIが大学生や高等教育機関(HEIs)に与える影響について検討する。 この研究では、総合的な調査とシナリオ分析を組み合わせて、新たなテクノロジがもたらす潜在的なメリット、欠点、変革的変化を探求する。 参加者130名を対象にオンライン調査を行い,ChatGPT使用に関する学生の視点と態度について検討した。 その結果、学生は課題作成や試験準備などのタスクに現在の技術を使用し、学術的な目標達成に有効な支援であると信じていることがわかった。 その後、シナリオ分析は将来のシナリオを予測し、GAIを高等教育に取り入れることに関連する可能性と課題に関する貴重な洞察を提供した。 主な動機は、HEIの潜在的な影響を明確かつ正確に理解し、進化する学習環境に対応するガイダンスを提供することである。 この結果は、この技術の無責任かつ過剰な使用が重大な課題をもたらす可能性を示唆している。 したがって、HEIは厳格な政策を策定し、学習目標を再評価し、講師を育成し、カリキュラムを調整し、検査アプローチを再検討しなければならない。

Generative Artificial Intelligence (GAI) models such as ChatGPT have experienced a surge in popularity, attracting 100 million active users in 2 months and generating an estimated 10 million daily queries. Despite this remarkable adoption, there remains a limited understanding to which extent this innovative technology influences higher education. This research paper investigates the impact of GAI on university students and Higher Education Institutions (HEIs). The study adopts a mixed-methods approach, combining a comprehensive survey with scenario analysis to explore potential benefits, drawbacks, and transformative changes the new technology brings. Using an online survey with 130 participants we assessed students' perspectives and attitudes concerning present ChatGPT usage in academics. Results show that students use the current technology for tasks like assignment writing and exam preparation and believe it to be a effective help in achieving academic goals. The scenario analysis afterwards projected potential future scenarios, providing valuable insights into the possibilities and challenges associated with incorporating GAI into higher education. The main motivation is to gain a tangible and precise understanding of the potential consequences for HEIs and to provide guidance responding to the evolving learning environment. The findings indicate that irresponsible and excessive use of the technology could result in significant challenges. Hence, HEIs must develop stringent policies, reevaluate learning objectives, upskill their lecturers, adjust the curriculum and reconsider examination approaches.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# 文脈学習によるベース大言語モデルの誤用可能性の解明

Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning ( http://arxiv.org/abs/2404.10552v1 )

ライセンス: Link先を確認
Xiao Wang, Tianze Chen, Xianjun Yang, Qi Zhang, Xun Zhao, Dahua Lin, (参考訳) 大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。 これには、アライメントなしで広範囲なデータセットで事前トレーニングされたベースモデルと、倫理的基準や人的価値に合わせて意図的に設計されたアライメントモデルの両方が含まれる。 基本LPMの命令追従制限が誤用に対する保護の役割を果たしているという一般的な仮定とは対照的に,本研究は,この信念に対する批判的な監視を明らかにしている。 我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。 これらのリスクを体系的に評価するために,リスク評価指標の新たなセットを導入する。 実験結果から,LLMの出力は悪質な目的で微調整されたモデルと同等のリスクレベルを示すことが明らかとなった。 この脆弱性は専門知識も訓練も必要とせず、ほとんど誰でも操作可能であり、LLMのセキュリティプロトコルに対する重大なリスクと緊急注意の必要性を強調している。

The open-sourcing of large language models (LLMs) accelerates application development, innovation, and scientific progress. This includes both base models, which are pre-trained on extensive datasets without alignment, and aligned models, deliberately designed to align with ethical standards and human values. Contrary to the prevalent assumption that the inherent instruction-following limitations of base LLMs serve as a safeguard against misuse, our investigation exposes a critical oversight in this belief. By deploying carefully designed demonstrations, our research demonstrates that base LLMs could effectively interpret and execute malicious instructions. To systematically assess these risks, we introduce a novel set of risk evaluation metrics. Empirical results reveal that the outputs from base LLMs can exhibit risk levels on par with those of models fine-tuned for malicious purposes. This vulnerability, requiring neither specialized knowledge nor training, can be manipulated by almost anyone, highlighting the substantial risk and the critical need for immediate attention to the base LLMs' security protocols.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# 継続事前学習によるドメイン特定日本語大国語モデルの構築

Construction of Domain-specified Japanese Large Language Model for Finance through Continual Pre-training ( http://arxiv.org/abs/2404.10555v1 )

ライセンス: Link先を確認
Masanori Hirano, Kentaro Imajo, (参考訳) 大規模言語モデル(LLM)は金融を含む様々な分野で広く使われている。 しかし、日本の金融特化 LLM はまだ提案されていない。 そこで本研究では,継続的な事前学習を通じて,我が国の金融特化LDMを構築することを目的とする。 学習前, 継続事前学習のための, 金融に焦点を当てたデータセットを構築した。 ベースモデルとして,10ビリオンクラスのパラメータモデルのうち,日本の金融ベンチマークにおける最先端性能を達成した日本語LLMを用いた。 データセットとベースモデルを用いて継続事前トレーニングを行った結果、チューニングされたモデルは日本の財務指標の原モデルよりも優れた性能を示した。 さらに, 出力比較の結果から, チューニングされたモデルの出力は, 回答の品質と長さの観点から, 元のモデルの出力よりも良い傾向が示された。 以上の結果から,LLMにはドメイン特異的な連続的事前トレーニングが有効であることが示唆された。 チューニングされたモデルはHugging Faceで公開されている。

Large language models (LLMs) are now widely used in various fields, including finance. However, Japanese financial-specific LLMs have not been proposed yet. Hence, this study aims to construct a Japanese financial-specific LLM through continual pre-training. Before tuning, we constructed Japanese financial-focused datasets for continual pre-training. As a base model, we employed a Japanese LLM that achieved state-of-the-art performance on Japanese financial benchmarks among the 10-billion-class parameter models. After continual pre-training using the datasets and the base model, the tuned model performed better than the original model on the Japanese financial benchmarks. Moreover, the outputs comparison results reveal that the tuned model's outputs tend to be better than the original model's outputs in terms of the quality and length of the answers. These findings indicate that domain-specific continual pre-training is also effective for LLMs. The tuned model is publicly available on Hugging Face.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# 完全群速度マッチングによるI型パラメトリックダウンコンバージョンにおけるFewモードスクイーズ

Few-mode squeezing in type-I parametric downconversion by complete group velocity matching ( http://arxiv.org/abs/2404.10560v1 )

ライセンス: Link先を確認
Dmitri B. Horoshko, Mikhail I. Kolobov, Valentina Parigi, Nicolas Treps, (参考訳) 周波数縮退パルス型Iパラメトリックダウンコンバージョンは、多くの量子光学応用のために広く使われているシャープ光の源である。 しかし、この源は典型的にはスペクトル多重であり、生成されたスクイーズは、多くのスペクトルモードに分散し、モードごとにスクイーズする程度に制限される。 非線形結晶において、ポンプと信号の完全群速度マッチング条件が満たされている場合、生成モードの数は2モードか3モードに抑えられる可能性があることを示す。 MgOをドープしたニオブ酸リチウム結晶を775nmで励起し、1.55$\mu$mで硬化した光を発生させた例を示す。 本モデルでは, ポンプと結晶の性質からスクイーズ度を導出し, 80mmの周期的偏極結晶で12dBのスクイーズが得られることを示した。

Frequency-degenerate pulsed type-I parametric downconversion is a widely used source of squeezed light for numerous quantum optical applications. However, this source is typically spectrally multimode and the generated squeezing is distributed between many spectral modes with a limited degree of squeezing per mode. We show that in a nonlinear crystal, where the condition of complete group velocity matching for the pump and the signal is satisfied, the number of generated modes may be as low as 2 or 3 modes. We illustrate the general theory with the example of the MgO-doped lithium niobate crystal pumped at 775 nm and generating squeezed light at 1.55 $\mu$m. Our model includes the derivation of the degree of squeezing from the properties of the pump and the crystal and shows that 12 dB of squeezing can be obtained in a periodically poled crystal of length 80 mm.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# HiGraphDTI:ドラッグ・ターゲット相互作用予測のための階層的グラフ表現学習

HiGraphDTI: Hierarchical Graph Representation Learning for Drug-Target Interaction Prediction ( http://arxiv.org/abs/2404.10561v1 )

ライセンス: Link先を確認
Bin Liu, Siqi Wu, Jin Wang, Xin Deng, Ao Zhou, (参考訳) 薬物標的相互作用(DTI)の発見は医薬品開発において重要な役割を担っている。 深層学習モデルは、薬物や標的化学構造から堅牢で表現力のある特徴を抽出する能力により、DTI予測においてより正確な結果が得られる。 しかし、既存の深層学習法は一般に分子原子の表現を集約し、分子グラフのサブ構造であるモチーフによって運ばれる化学的性質を無視して、薬物の特徴を生成する。 原子ドラッグ二重レベル分子表現学習は構造情報を完全に活用することができず、モチーフの観点からDTI機構を解釈できない。 さらに、逐次モデルに基づくターゲット特徴抽出は、限られた文脈情報を融合するか、高価な計算資源を必要とする。 上記の問題に対処するため,階層型グラフ表現学習に基づくDTI予測法(HiGraphDTI)を提案する。 具体的には、HiGraphDTIは三重レベル分子グラフから階層的な薬物表現を学び、原子、モチーフ、分子に埋め込まれた化学情報を徹底的に活用する。 次に、注目特徴融合モジュールは、異なる受容領域からの情報を組み込んで表現対象の特徴を抽出し、階層的注意機構は重要な分子セグメントを識別し、相互作用機構の解釈に補完的なビューを提供する。 実験の結果は,HiGraphDTIの最先端手法に対する優位性を実証するだけでなく,インタラクションの解釈や新しいDTI発見における我々のモデルの有効性を実証するものである。

The discovery of drug-target interactions (DTIs) plays a crucial role in pharmaceutical development. The deep learning model achieves more accurate results in DTI prediction due to its ability to extract robust and expressive features from drug and target chemical structures. However, existing deep learning methods typically generate drug features via aggregating molecular atom representations, ignoring the chemical properties carried by motifs, i.e., substructures of the molecular graph. The atom-drug double-level molecular representation learning can not fully exploit structure information and fails to interpret the DTI mechanism from the motif perspective. In addition, sequential model-based target feature extraction either fuses limited contextual information or requires expensive computational resources. To tackle the above issues, we propose a hierarchical graph representation learning-based DTI prediction method (HiGraphDTI). Specifically, HiGraphDTI learns hierarchical drug representations from triple-level molecular graphs to thoroughly exploit chemical information embedded in atoms, motifs, and molecules. Then, an attentional feature fusion module incorporates information from different receptive fields to extract expressive target features.Last, the hierarchical attention mechanism identifies crucial molecular segments, which offers complementary views for interpreting interaction mechanisms. The experiment results not only demonstrate the superiority of HiGraphDTI to the state-of-the-art methods, but also confirm the practical ability of our model in interaction interpretation and new DTI discovery.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# PAKT:パースペクティブ化された議論知識グラフと(補助材料を用いた)議論分析ツール

PAKT: Perspectivized Argumentation Knowledge Graph and Tool for Deliberation Analysis (with Supplementary Materials) ( http://arxiv.org/abs/2404.10570v1 )

ライセンス: Link先を確認
Moritz Plenz, Philipp Heinisch, Anette Frank, Philipp Cimiano, (参考訳) 議論的なプロセスは、私たちの社会における意見、決定、政策を形成する上で重要な役割を担います。 説得力のある議論とは対照的に、審議は利害関係者間の対立する視点の理解を促進することを目的としている。 熟考における議論の交換は、視点を解明し、対立する利益に対する認識を高め、最終的に解決に収束するのに役立つ。 検討の基盤となるプロセスをよりよく理解し,分析するために,パースペクティブ化された論証知識グラフとツールであるPAKTを提案する。 グラフは様々なトピックにまたがって議論空間を構成する。 一 前提及び結論に分けてあること。 二 スタンス、フレーミング及びその根底にある価値について注釈を付されていること。 三 背景知識と結びついていること。 本稿では,PAKTの構築方法と,得られた多面的議論グラフのケーススタディについて述べる。 本研究は,本フレームワークがもたらす分析的可能性を示し,個別の議論を超えて,参加者や利害関係者の議論方法における構造的パターンを明らかにする能力を強調した。 我々の研究の包括的な目標は、特別な議論形態としての建設的談話と情報的意思決定を促進することである。 我々はPAKTの公開アクセスと、分析、ヴィジュアライザトン、ナビゲーション、効率的な検索をサポートする豊富な機能を提供し、多様な議論の形式を提供しています。

Deliberative processes play a vital role in shaping opinions, decisions and policies in our society. In contrast to persuasive debates, deliberation aims to foster understanding of conflicting perspectives among interested parties. The exchange of arguments in deliberation serves to elucidate viewpoints, to raise awareness of conflicting interests, and to finally converge on a resolution. To better understand and analyze the underlying processes of deliberation, we propose PAKT, a Perspectivized Argumentation Knowledge Graph and Tool. The graph structures the argumentative space across diverse topics, where arguments i) are divided into premises and conclusions, ii) are annotated for stances, framings and their underlying values and iii) are connected to background knowledge. We show how to construct PAKT and conduct case studies on the obtained multifaceted argumentation graph. Our findings show the analytical potential offered by our framework, highlighting the capability to go beyond individual arguments and to reveal structural patterns in the way participants and stakeholders argue in a debate. The overarching goal of our work is to facilitate constructive discourse and informed decision making as a special form of argumentation. We offer public access to PAKT and its rich capabilities to support analytics, visualizaton, navigation and efficient search, for diverse forms of argumentation.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# CMU-Flownet:Occluded Scenarioにおけるポイントクラウドシーンフロー推定の探索

CMU-Flownet: Exploring Point Cloud Scene Flow Estimation in Occluded Scenario ( http://arxiv.org/abs/2404.10571v1 )

ライセンス: Link先を確認
Jingze Chen, Junfeng Yao, Qiqin Lin, Lei Li, (参考訳) 閉塞はLiDARデータにおけるポイントクラウドフレームのアライメントを妨げるが、これは主にオクルージョンフリーデータセットでテストされるシーンフローモデルによって不十分に対処される課題である。 ネットワーク内のオクルージョン処理を統合する試みは、主に2つの制限があるため、しばしば正確性の問題に悩まされる。 a) 隠蔽情報の不十分な使用で、しばしば効果的な統合戦略を使わずに、流速推定とマージすること ロ 閉塞関連エラーの訂正に不足する距離重み付けアップサンプリングに依存すること。 これらの課題に対処するために,我々は,Occlusion-aware Cost Volume (OCV) 機構とともに,そのコストボリューム層にオクルージョン推定モジュールを組み込んだ相関行列アップサンプリングフローネット (CMU-Flownet) を導入する。 具体的には、点レベルの類似性を評価するために設計された相関行列を統合するサンプリングプロセスの感覚場を拡大する強化されたアップサンプリング手法を提案する。 一方,本モデルでは,シーンフローのコンテキスト内にオクルージョンデータをしっかりと統合し,フロー推定の洗練段階において戦略的にこの情報を展開する。 このアプローチの有効性は、その後の実験的検証を通じて実証される。 実証的な評価によると、CMU-Flownetは、排除されたFlyingthings3DとKITTYデータセットの領域内で最先端のパフォーマンスを確立し、ほとんどの評価指標で過去の方法論を超越している。

Occlusions hinder point cloud frame alignment in LiDAR data, a challenge inadequately addressed by scene flow models tested mainly on occlusion-free datasets. Attempts to integrate occlusion handling within networks often suffer accuracy issues due to two main limitations: a) the inadequate use of occlusion information, often merging it with flow estimation without an effective integration strategy, and b) reliance on distance-weighted upsampling that falls short in correcting occlusion-related errors. To address these challenges, we introduce the Correlation Matrix Upsampling Flownet (CMU-Flownet), incorporating an occlusion estimation module within its cost volume layer, alongside an Occlusion-aware Cost Volume (OCV) mechanism. Specifically, we propose an enhanced upsampling approach that expands the sensory field of the sampling process which integrates a Correlation Matrix designed to evaluate point-level similarity. Meanwhile, our model robustly integrates occlusion data within the context of scene flow, deploying this information strategically during the refinement phase of the flow estimation. The efficacy of this approach is demonstrated through subsequent experimental validation. Empirical assessments reveal that CMU-Flownet establishes state-of-the-art performance within the realms of occluded Flyingthings3D and KITTY datasets, surpassing previous methodologies across a majority of evaluated metrics.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# Label merge-and-split: メモリ効率のよい脳機能解析のためのグラフカラー化アプローチ

Label merge-and-split: A graph-colouring approach for memory-efficient brain parcellation ( http://arxiv.org/abs/2404.10572v1 )

ライセンス: Link先を確認
Aaron Kujawa, Reuben Dorent, Sebastien Ourselin, Tom Vercauteren, (参考訳) 脳のパーセレーションには大量の画像量に数百のセグメンテーションラベルを推定する必要があるため、ディープラーニングアプローチに対する重要な実践的課題が提示される。 ラベルマージ・アンド・スプリット(laber merge-and-split)は、まず学習に基づく全脳のパーセレーションに必要なラベルを効果的に減らし、元のラベルを復元する手法である。 グリーディグラフカラー化アルゴリズムを用いて,モデルトレーニングや推論に先立って,複数の空間的に分離されたラベルを自動でグループ化し,マージする。 マージされたラベルは意味的に無関係である。 ディープラーニングモデルは、マージされたラベルを予測するために訓練される。 推測時、原ラベルはアトラスベースの影響領域を用いて復元される。 提案手法は,ラベルのマージや分割を行わずに,ベースライン法に匹敵するセグメンテーション精度を達成しつつ,ラベル数を最大68%削減する。 さらに、モデルトレーニングや推論時間、GPUメモリ要件も大幅に削減された。 提案手法は,アトラスに基づく先行クラスにおいて,空間的に分離されたクラスが多数存在するすべてのセマンティックセグメンテーションタスクに適用できる。

Whole brain parcellation requires inferring hundreds of segmentation labels in large image volumes and thus presents significant practical challenges for deep learning approaches. We introduce label merge-and-split, a method that first greatly reduces the effective number of labels required for learning-based whole brain parcellation and then recovers original labels. Using a greedy graph colouring algorithm, our method automatically groups and merges multiple spatially separate labels prior to model training and inference. The merged labels may be semantically unrelated. A deep learning model is trained to predict merged labels. At inference time, original labels are restored using atlas-based influence regions. In our experiments, the proposed approach reduces the number of labels by up to 68% while achieving segmentation accuracy comparable to the baseline method without label merging and splitting. Moreover, model training and inference times as well as GPU memory requirements were reduced significantly. The proposed method can be applied to all semantic segmentation tasks with a large number of spatially separate classes within an atlas-based prior.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# AAVDiff:拡散発生による組換えアデノ関連ウイルス(AAV)カプシドの生存性と多様性の実験的検証

AAVDiff: Experimental Validation of Enhanced Viability and Diversity in Recombinant Adeno-Associated Virus (AAV) Capsids through Diffusion Generation ( http://arxiv.org/abs/2404.10573v1 )

ライセンス: Link先を確認
Lijun Liu, Jiali Yang, Jianfei Song, Xinglin Yang, Lele Niu, Zeqi Cai, Hui Shi, Tingjun Hou, Chang-yu Hsieh, Weiran Shen, Yafeng Deng, (参考訳) 組換えアデノ関連ウイルス(rAAV)ベクターは遺伝子治療に革命をもたらしたが、その広範なトロピズムと準最適導入効率は臨床応用を制限している。 これらの制限を克服するために、研究者は改良ベクターを特定するためにキャプシドライブラリの設計とスクリーニングに重点を置いてきた。 しかし、大きなシーケンス空間と限られた資源は、実行可能なキャプシド変種を特定する上での課題である。 そこで本研究では,キャプシド列を生成するエンドツーエンド拡散モデルを提案する。 市販のAV2データを用いて,38,000種類のAV2ウイルスタンパク質(VP)配列を生成し,8000個のウイルス選択試験を行った。 その結果,従来の手法と比較して,モデルの優位性が確認された。 さらに, AAV9キャプシドデータがない場合には, 1つの野生型配列とは別に, 最大9個の変異を持つ生存可能な配列を直接生成するために, 同じモデルを用いた。 残りの3万のサンプルをAAV9ドメインに転送しました さらに, AAV9 VP hypervariable region VI と V の変異解析を行い, AAV9 VP 配列の連続的改良に寄与した。 本研究は, rAAVベクターの設計と機能検証において重要な進歩を示し, 遺伝子治療応用における特異性と伝達効率を高める革新的なソリューションを提供する。

Recombinant adeno-associated virus (rAAV) vectors have revolutionized gene therapy, but their broad tropism and suboptimal transduction efficiency limit their clinical applications. To overcome these limitations, researchers have focused on designing and screening capsid libraries to identify improved vectors. However, the large sequence space and limited resources present challenges in identifying viable capsid variants. In this study, we propose an end-to-end diffusion model to generate capsid sequences with enhanced viability. Using publicly available AAV2 data, we generated 38,000 diverse AAV2 viral protein (VP) sequences, and evaluated 8,000 for viral selection. The results attested the superiority of our model compared to traditional methods. Additionally, in the absence of AAV9 capsid data, apart from one wild-type sequence, we used the same model to directly generate a number of viable sequences with up to 9 mutations. we transferred the remaining 30,000 samples to the AAV9 domain. Furthermore, we conducted mutagenesis on AAV9 VP hypervariable regions VI and V, contributing to the continuous improvement of the AAV9 VP sequence. This research represents a significant advancement in the design and functional validation of rAAV vectors, offering innovative solutions to enhance specificity and transduction efficiency in gene therapy applications.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# ターゲットプライベートクラスセグメンテーションによる不確実性誘導型オープンソースフリー教師なしドメイン適応

Uncertainty-guided Open-Set Source-Free Unsupervised Domain Adaptation with Target-private Class Segregation ( http://arxiv.org/abs/2404.10574v1 )

ライセンス: Link先を確認
Mattia Litrico, Davide Talon, Sebastiano Battiato, Alessio Del Bue, Mario Valerio Giuffrida, Pietro Morerio, (参考訳) Standard Unsupervised Domain Adaptation (UDA)は、ラベル付きソースドメインからラベル付きターゲットへの知識の転送を目的としているが、通常はソースデータとターゲットデータの両方に同時アクセスする必要がある。 さらに、UDAアプローチはソースとターゲットドメインが同じラベル空間を共有していると一般的に仮定する。 しかし、この2つの仮定は現実のシナリオではほとんど満たされない。 本稿では,SF-OSDA(Source-Free Open-set Domain Adaptation)の設定について考察する。 本稿では,サンプルを複数の未知のクラスに分離することで,ターゲット・プライベートカテゴリの粒度を利用したSF-OSDAの新しい手法を提案する。 初期クラスタリングに基づく割当てから始めて, 不確実性に基づくサンプル選択モジュールのガイドを用いて擬似ラベルを精製することにより, 対象標本の分離を段階的に改善する。 さらに,NL-InfoNCELoss という新たなコントラスト損失を提案する。これは,自己教師付きコントラスト学習に負の学習を統合することで,ノイズのある擬似ラベルに対するモデルロバスト性を高めるものである。 ベンチマークデータセットの大規模な実験は、提案手法が既存手法よりも優れていることを示し、新しい最先端性能を確立した。 特に,本手法が新規クラスのセマンティクスを学習し,新たなクラス発見を行う可能性を示す。

Standard Unsupervised Domain Adaptation (UDA) aims to transfer knowledge from a labeled source domain to an unlabeled target but usually requires simultaneous access to both source and target data. Moreover, UDA approaches commonly assume that source and target domains share the same labels space. Yet, these two assumptions are hardly satisfied in real-world scenarios. This paper considers the more challenging Source-Free Open-set Domain Adaptation (SF-OSDA) setting, where both assumptions are dropped. We propose a novel approach for SF-OSDA that exploits the granularity of target-private categories by segregating their samples into multiple unknown classes. Starting from an initial clustering-based assignment, our method progressively improves the segregation of target-private samples by refining their pseudo-labels with the guide of an uncertainty-based sample selection module. Additionally, we propose a novel contrastive loss, named NL-InfoNCELoss, that, integrating negative learning into self-supervised contrastive learning, enhances the model robustness to noisy pseudo-labels. Extensive experiments on benchmark datasets demonstrate the superiority of the proposed method over existing approaches, establishing new state-of-the-art performance. Notably, additional analyses show that our method is able to learn the underlying semantics of novel classes, opening the possibility to perform novel class discovery.
翻訳日:2024-04-17 16:44:15 公開日:2024-04-16
# EMC$^2$:グローバル収束型コントラスト学習のための効率的なMCMC負サンプリング

EMC$^2$: Efficient MCMC Negative Sampling for Contrastive Learning with Global Convergence ( http://arxiv.org/abs/2404.10575v1 )

ライセンス: Link先を確認
Chung-Yiu Yau, Hoi-To Wai, Parameswaran Raman, Soumajyoti Sarkar, Mingyi Hong, (参考訳) 対照的な学習における重要な課題は、データのより優れたエンコーディングを学ぶために、正のサンプルと対照的に、大きなサンプルセットから負のサンプルを生成することである。 これらの負のサンプルは、トレーニングプロセス中に動的に更新されるソフトマックス分布に従うことが多い。 しかし、この分布からのサンプリングは、分割関数の計算に高い計算コストがかかるため、簡単ではない。 本稿では,コントラスト学習のための効率的なマルコフ連鎖モンテカルロ陰性サンプリング法(EMC$^2$)を提案する。 本稿では, 適応型メトロポリス・ハスティングス・サブルーチンを利用するEMC$^2$を提案する。 EMC$^2$ が $\mathcal{O}(1/\sqrt{T})$-stationary point of the global contrastive loss in $T$ iterations であることを示す。 以前の研究と比較すると、EMC$^2$は、計算量やメモリコストを低く抑えながらバッチサイズの選択によらず、グローバル収束(定常性)を示す最初のアルゴリズムである。 数値実験により、EMC$^2$は小規模なバッチトレーニングで有効であることが検証され、ベースラインアルゴリズムよりも同等または優れた性能が得られる。 STL-10とImagenet-100の事前学習画像エンコーダについて報告する。

A key challenge in contrastive learning is to generate negative samples from a large sample set to contrast with positive samples, for learning better encoding of the data. These negative samples often follow a softmax distribution which are dynamically updated during the training process. However, sampling from this distribution is non-trivial due to the high computational costs in computing the partition function. In this paper, we propose an Efficient Markov Chain Monte Carlo negative sampling method for Contrastive learning (EMC$^2$). We follow the global contrastive learning loss as introduced in SogCLR, and propose EMC$^2$ which utilizes an adaptive Metropolis-Hastings subroutine to generate hardness-aware negative samples in an online fashion during the optimization. We prove that EMC$^2$ finds an $\mathcal{O}(1/\sqrt{T})$-stationary point of the global contrastive loss in $T$ iterations. Compared to prior works, EMC$^2$ is the first algorithm that exhibits global convergence (to stationarity) regardless of the choice of batch size while exhibiting low computation and memory cost. Numerical experiments validate that EMC$^2$ is effective with small batch training and achieves comparable or better performance than baseline algorithms. We report the results for pre-training image encoders on STL-10 and Imagenet-100.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# リモートワークと教育におけるAR(Augmented Reality)の適用

The application of Augmented Reality (AR) in Remote Work and Education ( http://arxiv.org/abs/2404.10579v1 )

ライセンス: Link先を確認
Keqin Li, Peng Xirui, Jintong Song, Bo Hong, Jin Wang, (参考訳) テクノロジーの急速な進歩により、バーチャル情報を現実世界と深く統合する能力で知られる拡張現実(Augmented Reality, AR)技術は、徐々に伝統的な作業モードや教育方法を変えつつある。 特にリモートワークとオンライン教育の領域では、AR技術は幅広い応用可能性を示している。 本稿では,リモートワークと教育におけるAR技術の応用可能性と実効性について考察する。 系統的な文献レビューを通じて、この研究はAR技術の鍵となる特徴、利点、課題を概説する。 理論的分析に基づき、AR技術が遠隔作業の効率化と教育モデルの革新を促進するための科学的基盤と技術的支援について論じる。 さらに,実証研究計画を設計し,実験データを分析することにより,実用化におけるAR技術の具体的性能と影響要因を明らかにする。 最後に,実験結果に基づいて,遠隔作業・教育におけるAR技術の応用価値を概説し,今後の開発動向を展望し,先進的な研究の方向性と戦略的提案を提案し,その基礎と理論的ガイダンスを提供し,関連分野におけるAR技術の深層的応用をさらに促進させる。

With the rapid advancement of technology, Augmented Reality (AR) technology, known for its ability to deeply integrate virtual information with the real world, is gradually transforming traditional work modes and teaching methods. Particularly in the realms of remote work and online education, AR technology demonstrates a broad spectrum of application prospects. This paper delves into the application potential and actual effects of AR technology in remote work and education. Through a systematic literature review, this study outlines the key features, advantages, and challenges of AR technology. Based on theoretical analysis, it discusses the scientific basis and technical support that AR technology provides for enhancing remote work efficiency and promoting innovation in educational teaching models. Additionally, by designing an empirical research plan and analyzing experimental data, this article reveals the specific performance and influencing factors of AR technology in practical applications. Finally, based on the results of the experiments, this research summarizes the application value of AR technology in remote work and education, looks forward to its future development trends, and proposes forward-looking research directions and strategic suggestions, offering empirical foundation and theoretical guidance for further promoting the in-depth application of AR technology in related fields.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 慢性疾患を伴う患者軌跡のデータ駆動的サブグループ化:腰痛による証拠

Data-driven subgrouping of patient trajectories with chronic diseases: Evidence from low back pain ( http://arxiv.org/abs/2404.10580v1 )

ライセンス: Link先を確認
Christof Naumzik, Alice Kongsted, Werner Vach, Stefan Feuerriegel, (参考訳) 臨床データは、より効果的な疾患管理の可能性を秘め、医療のパーソナライズを通知する。 実際には、これはサブグループ化によって達成され、類似の患者特性を持つクラスターを識別し、サブグループ固有の疾患動態をターゲットとした、カスタマイズされた治療計画を受ける。 本稿では,慢性疾患からの患者軌跡を分類するための隠れマルコフモデルを提案する。 我々のモデルは確率論的であり、高度に調整された潜在状態を通して、慢性疾患の異なる軌跡(「重篤」、「モデレート」、そして「マイルド」)を捉えるために慎重に設計されている。 非特異的腰痛847例を対象とした縦断的研究に基づいて,本サブグループ化の枠組みを実証した。 ここで、我々のサブグループ化フレームワークは8つのサブグループを識別する。 さらに,我々のサブグループ化フレームワークは,クラスタ妥当性指標の点で,共通ベースラインを上回っていることを示す。 最後に、他の慢性および長期の疾患に対するモデルの適用性について論じる。

Clinical data informs the personalization of health care with a potential for more effective disease management. In practice, this is achieved by subgrouping, whereby clusters with similar patient characteristics are identified and then receive customized treatment plans with the goal of targeting subgroup-specific disease dynamics. In this paper, we propose a novel mixture hidden Markov model for subgrouping patient trajectories from chronic diseases. Our model is probabilistic and carefully designed to capture different trajectory phases of chronic diseases (i.e., "severe", "moderate", and "mild") through tailored latent states. We demonstrate our subgrouping framework based on a longitudinal study across 847 patients with non-specific low back pain. Here, our subgrouping framework identifies 8 subgroups. Further, we show that our subgrouping framework outperforms common baselines in terms of cluster validity indices. Finally, we discuss the applicability of the model to other chronic and long-lasting diseases.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# ReWiTe:ビームスプリッタ・カメラ・リグによる広角・望遠デュアルカメラフュージョンデータセット

ReWiTe: Realistic Wide-angle and Telephoto Dual Camera Fusion Dataset via Beam Splitter Camera Rig ( http://arxiv.org/abs/2404.10584v1 )

ライセンス: Link先を確認
Chunli Peng, Xuan Dong, Tiantian Cao, Zhengqing Li, Kun Dong, Weixin Li, (参考訳) 近年,広角カメラと望遠カメラを備えたデュアルカメラシステムからの画像の融合がホットスポット問題となっている。 これらのシステムから取得した広角画像と望遠画像を同時に統合することにより、融合した画像は高画質の視野(FOV)を実現する。 既存のアプローチは主にディープラーニングの手法であり、主にトレーニングデータセットが重要な役割を果たす教師付き学習に依存しています。 しかし、現在のデータセットは典型的にはデータ合成アプローチを採用しており、接地構造画像とともに広角画像と望遠画像の入力対を生成する。 特に、実際の広角カメラで撮影するよりも広角入力を合成し、望遠カメラで撮影する入力望遠画像よりも画質がかなり低い広角カメラで地平線画像をキャプチャする。 これらの制約に対処するために,広角・望遠デュアルカメラを備えた2台の携帯電話から入力対と接地トラス画像の3つの画像を同時にキャプチャするビームスプリッタを用いた新しいハードウェア構成を導入する。 具体的には、携帯電話2が捉えた広角・望遠画像が入力対として機能し、携帯電話1が捉えた望遠画像は、携帯電話2からの広角画像の光路に合わせて校正され、入力された望遠画像と同等の画質を維持した地上画像として機能する。 ReWiTeと呼ばれる新しいデータセットの有効性を検証する実験により、実世界の広角・望遠両画像融合タスクにおける様々な既存手法の性能を大幅に向上する。

The fusion of images from dual camera systems featuring a wide-angle and a telephoto camera has become a hotspot problem recently. By integrating simultaneously captured wide-angle and telephoto images from these systems, the resulting fused image achieves a wide field of view (FOV) coupled with high-definition quality. Existing approaches are mostly deep learning methods, and predominantly rely on supervised learning, where the training dataset plays a pivotal role. However, current datasets typically adopt a data synthesis approach generate input pairs of wide-angle and telephoto images alongside ground-truth images. Notably, the wide-angle inputs are synthesized rather than captured using real wide-angle cameras, and the ground-truth image is captured by wide-angle camera whose quality is substantially lower than that of input telephoto images captured by telephoto cameras. To address these limitations, we introduce a novel hardware setup utilizing a beam splitter to simultaneously capture three images, i.e. input pairs and ground-truth images, from two authentic cellphones equipped with wide-angle and telephoto dual cameras. Specifically, the wide-angle and telephoto images captured by cellphone 2 serve as the input pair, while the telephoto image captured by cellphone 1, which is calibrated to match the optical path of the wide-angle image from cellphone 2, serves as the ground-truth image, maintaining quality on par with the input telephoto image. Experiments validate the efficacy of our newly introduced dataset, named ReWiTe, significantly enhances the performance of various existing methods for real-world wide-angle and telephoto dual image fusion tasks.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 光のブロードバンド圧縮状態を持つ半デバイス非依存量子乱数生成器

Semi-device-independent quantum random number generator with a broadband squeezed state of light ( http://arxiv.org/abs/2404.10586v1 )

ライセンス: Link先を確認
Jialin Cheng, Shaocong Liang, Jiliang Qin, Jiatong Li, Zhihui Yan, Xiaojun Jia, Changde Xie, Kunchi Peng, (参考訳) ランダム数はシミュレーションアルゴリズムや暗号の基本要素であり、計算機シミュレーションや情報処理において重要な役割を果たしている。 圧縮光の顕著な特徴は、対のゆらぎが低く、乱れがより大きいことである。

Random numbers are a basic ingredient of simulation algorithms and cryptography, and play a significant part in computer simulation and information processing. One prominent feature of a squeezed light is its lower fluctuation and more randomness in a pair
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 対実例は対人訓練を複雑にするか?

Do Counterfactual Examples Complicate Adversarial Training? ( http://arxiv.org/abs/2404.10588v1 )

ライセンス: Link先を確認
Eric Yeats, Cameron Darwin, Eduardo Ortega, Frank Liu, Hai Li, (参考訳) 我々は拡散モデルを利用して、ロバスト分類器の堅牢性と性能のトレードオフを研究する。 提案手法では,低ノルム対実例(CE)を生成するための,単純で事前訓練された拡散法を導入している。 クリーントレーニングデータに対するロバストモデルの信頼性と精度は、CEにデータが近接していることと関連していると報告する。 さらに、ロバストモデルは、CEがもたらす低ノルムな意味的変化にますます不変になるにつれて、CE上で直接評価すると、非常に性能が劣る。 その結果,非破壊的特徴と意味的特徴の重なりが強く,非破壊的特徴が解釈できないという一般的な仮定に反することが明らかとなった。

We leverage diffusion models to study the robustness-performance tradeoff of robust classifiers. Our approach introduces a simple, pretrained diffusion method to generate low-norm counterfactual examples (CEs): semantically altered data which results in different true class membership. We report that the confidence and accuracy of robust models on their clean training data are associated with the proximity of the data to their CEs. Moreover, robust models perform very poorly when evaluated on the CEs directly, as they become increasingly invariant to the low-norm, semantic changes brought by CEs. The results indicate a significant overlap between non-robust and semantic features, countering the common assumption that non-robust features are not interpretable.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 人力デモから記号的タスク表現を学習する:記憶の保存, 検索, 統合, 忘れられる体験

Learning Symbolic Task Representation from a Human-Led Demonstration: A Memory to Store, Retrieve, Consolidate, and Forget Experiences ( http://arxiv.org/abs/2404.10591v1 )

ライセンス: Link先を確認
Luca Buoncompagni, Fulvio Mastrogiovanni, (参考訳) 本稿では,認知的な記憶機能(記憶,検索,統合,忘れなど)に着想を得たシンボリックラーニングフレームワークを提案する。 我々は,1つのタスクのデモンストレーションを行う非専門家と,経験に基づいてタスクを再実行するための構造化知識をオンラインで学習するロボットのシナリオに対処する。 本研究では,非注釈データに基づくワンショット学習プロセスについて検討し,対話や視覚的コミュニケーションなどを通じて,タスクの理解不能な表現を記憶する。 我々の汎用フレームワークはファジィ記述論理(fuzzy Description Logic)に依存しており、これまで開発されたシーン識別とタグ付けアルゴリズムを拡張してきた。 本稿では,このようなアルゴリズムを用いて,単純なヒューリスティックスに基づいて,時間とともに記憶された観測をランク付けするスコアを用いて,認知的な記憶機能を実装する。 我々の主な貢献は、ロボットの観察に基づいて階層的な知識表現をブートストラップするための様々なヒューリスティックを体系的に研究するために使用できるフレームワークの形式化である。 本報告では,実例的なアセンブリタスクのシナリオを通じて,そのメリットと限界について議論するため,フレームワークの性能について述べる。

We present a symbolic learning framework inspired by cognitive-like memory functionalities (i.e., storing, retrieving, consolidating and forgetting) to generate task representations to support high-level task planning and knowledge bootstrapping. We address a scenario involving a non-expert human, who performs a single task demonstration, and a robot, which online learns structured knowledge to re-execute the task based on experiences, i.e., observations. We consider a one-shot learning process based on non-annotated data to store an intelligible representation of the task, which can be refined through interaction, e.g., via verbal or visual communication. Our general-purpose framework relies on fuzzy Description Logic, which has been used to extend the previously developed Scene Identification and Tagging algorithm. In this paper, we exploit such an algorithm to implement cognitive-like memory functionalities employing scores that rank memorised observations over time based on simple heuristics. Our main contribution is the formalisation of a framework that can be used to systematically investigate different heuristics for bootstrapping hierarchical knowledge representations based on robot observations. Through an illustrative assembly task scenario, the paper presents the performance of our framework to discuss its benefits and limitations.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 自動運転コーナ症例における大規模視線モデルの自動評価

Automated Evaluation of Large Vision-Language Models on Self-driving Corner Cases ( http://arxiv.org/abs/2404.10595v1 )

ライセンス: Link先を確認
Yanze Li, Wenhua Zhang, Kai Chen, Yanxin Liu, Pengxiang Li, Ruiyuan Gao, Lanqing Hong, Meng Tian, Xinhai Zhao, Zhenguo Li, Dit-Yan Yeung, Huchuan Lu, Xu Jia, (参考訳) 画像やビデオを理解するための目覚しい推論能力を持つ大型視覚言語モデル(LVLM)は、自律運転領域において広く注目を集めており、解釈可能なエンドツーエンド自動運転の開発が著しく進んでいる。 しかし、LVLMの現在の評価は、主に一般的なシナリオにおける多面的能力に焦点を当てており、自律運転状況における定量化と自動評価が欠如している。 本稿では、一般認識、地域認識、運転提案を含む解釈可能な自動運転のためのLVLMを、初めて自動的かつ定量的に評価する、自動運転のための新しいビジョンベンチマークであるCODA-LMを提案する。 CODA-LMは、画像入力のない強力なテキストのみの大規模言語モデル(LLM)を利用して、自動運転シナリオにおけるLVLMの能力を評価する。 GPT-4Vのようなクローズドソースの商用LVLMでさえ、道路角のケースをうまく扱えないことが実証され、我々は依然として強力なLVLM駆動駆動剤には程遠いことを示唆し、CODA-LMが将来の発展を促進する触媒になることを期待している。

Large Vision-Language Models (LVLMs), due to the remarkable visual reasoning ability to understand images and videos, have received widespread attention in the autonomous driving domain, which significantly advances the development of interpretable end-to-end autonomous driving. However, current evaluations of LVLMs primarily focus on the multi-faceted capabilities in common scenarios, lacking quantifiable and automated assessment in autonomous driving contexts, let alone severe road corner cases that even the state-of-the-art autonomous driving perception systems struggle to handle. In this paper, we propose CODA-LM, a novel vision-language benchmark for self-driving, which provides the first automatic and quantitative evaluation of LVLMs for interpretable autonomous driving including general perception, regional perception, and driving suggestions. CODA-LM utilizes the texts to describe the road images, exploiting powerful text-only large language models (LLMs) without image inputs to assess the capabilities of LVLMs in autonomous driving scenarios, which reveals stronger alignment with human preferences than LVLM judges. Experiments demonstrate that even the closed-sourced commercial LVLMs like GPT-4V cannot deal with road corner cases well, suggesting that we are still far from a strong LVLM-powered intelligent driving agent, and we hope our CODA-LM can become the catalyst to promote future development.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# デジタルイベント駆動型ニューロモルフィックプロセッサのシナプス遅延モデルにおけるハードウェア・アウェア・トレーニング

Hardware-aware training of models with synaptic delays for digital event-driven neuromorphic processors ( http://arxiv.org/abs/2404.10597v1 )

ライセンス: Link先を確認
Alberto Patino-Saucedo, Roy Meijer, Amirreza Yousefzadeh, Manil-Dev Gomony, Federico Corradi, Paul Detteter, Laura Garrido-Regife, Bernabe Linares-Barranco, Manolis Sifalakis, (参考訳) 構成可能なシナプス遅延は、多くのニューロモルフィックニューラルネットワークハードウェアアクセラレーターの基本的な特徴である。 しかしながら、複雑な(一時的な)ダイナミクスを示すタスクのパフォーマンスと効率に有望な影響があるにもかかわらず、モデル実装で使用されることはめったにない。 本研究では,デジタルニューロモルフィックハードウェアにおいて,シナプス重みの他,シナプス毎の遅延も協調最適化される,高パフォーマンスなスパイクニューラルネットワークモデル(SNN)を訓練し,展開するためのフレームワークを提案する。 スパイクベースのバックプロパゲーションスルータイムを活用することで、ネットワークサイズの関数として、シナプスウェイト精度やコア毎のパラメータの総数といった、両方のプラットフォーム制約をトレーニングする。 さらに、メモリフットプリントを低コストで削減するために遅延プルーニング技術を用いる。 トレーニングされたモデルを、Intel LoihiとImec Senecaの2つのニューロモルフィックデジタルハードウェアプラットフォームで評価した。 Loihiは、いわゆるRing-Bufferハードウェア構造を使ったシナプス遅延サポートを提供する。 Senecaは、シナプス遅延に対するネイティブハードウェアサポートを提供していない。 そこで本論文の2つ目の貢献は,セネカに集積したシナプス遅延の高速化のための,領域・メモリ効率の高いハードウェア構造である。 評価ベンチマークでは、SHD(Spiking Heidelberg Digits)分類タスクを解くためのモデルがいくつか含まれており、ソフトウェアからハードウェアへの移行に伴う最小の精度低下が示されている。 私たちの知る限り、マルチコアのニューロモルフィックハードウェアアクセラレーター上で、シナプス遅延をパラメータ化したハードウェア認識モデルのトレーニングとデプロイの方法を示す最初の研究である。

Configurable synaptic delays are a basic feature in many neuromorphic neural network hardware accelerators. However, they have been rarely used in model implementations, despite their promising impact on performance and efficiency in tasks that exhibit complex (temporal) dynamics, as it has been unclear how to optimize them. In this work, we propose a framework to train and deploy, in digital neuromorphic hardware, highly performing spiking neural network models (SNNs) where apart from the synaptic weights, the per-synapse delays are also co-optimized. Leveraging spike-based back-propagation-through-time, the training accounts for both platform constraints, such as synaptic weight precision and the total number of parameters per core, as a function of the network size. In addition, a delay pruning technique is used to reduce memory footprint with a low cost in performance. We evaluate trained models in two neuromorphic digital hardware platforms: Intel Loihi and Imec Seneca. Loihi offers synaptic delay support using the so-called Ring-Buffer hardware structure. Seneca does not provide native hardware support for synaptic delays. A second contribution of this paper is therefore a novel area- and memory-efficient hardware structure for acceleration of synaptic delays, which we have integrated in Seneca. The evaluated benchmark involves several models for solving the SHD (Spiking Heidelberg Digits) classification task, where minimal accuracy degradation during the transition from software to hardware is demonstrated. To our knowledge, this is the first work showcasing how to train and deploy hardware-aware models parameterized with synaptic delays, on multicore neuromorphic hardware accelerators.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 自由応答パラダイムに向けて--スパイクニューラルネットワークにおける意思決定の理論

Towards free-response paradigm: a theory on decision-making in spiking neural networks ( http://arxiv.org/abs/2404.10599v1 )

ライセンス: Link先を確認
Zhichao Zhu, Yang Qi, Wenlian Lu, Zhigang Wang, Lu Cao, Jianfeng Feng, (参考訳) スパイキングニューラルネットワーク(SNN)のエネルギー効率と脳に似た情報処理能力は注目され、脳にインスパイアされたコンピューティングの重要な要素として確立されている。 SNNが直面する最も一般的な課題は、推論速度と精度のトレードオフであり、望まれるパフォーマンスのレベルを達成するのに十分な時間を要する。 動物行動実験からインスピレーションを得て、意思決定反応時間、タスクの複雑さ、信頼度とを関連づけることで、これらの知見をSNNに適用することを目指す。 焦点は、意思決定プロセスにおける信号とノイズの相互作用を解消することに焦点を当て、SNNが推論をどのように行うかを理解することである。 提案した理論フレームワークは,SNNトレーニングの新たな最適化目標を導入し,意思決定の正確性だけでなく,過去の経験から学ぶことによる予測的自信の発達の重要性を強調した。 実験結果から,SNNは信頼度が向上し,意思決定結果が向上することが示された。 さらに、推論中に効率的な意思決定のための戦略を導入し、SNNがより迅速にタスクを完了し、決定信頼性の指標として停止時間を使用できるようにした。 神経科学的な洞察とニューロモルフィックコンピューティングを統合することで、SNNの能力を探求し、複雑な意思決定シナリオに応用する新たな可能性を開く。

The energy-efficient and brain-like information processing abilities of Spiking Neural Networks (SNNs) have attracted considerable attention, establishing them as a crucial element of brain-inspired computing. One prevalent challenge encountered by SNNs is the trade-off between inference speed and accuracy, which requires sufficient time to achieve the desired level of performance. Drawing inspiration from animal behavior experiments that demonstrate a connection between decision-making reaction times, task complexity, and confidence levels, this study seeks to apply these insights to SNNs. The focus is on understanding how SNNs make inferences, with a particular emphasis on untangling the interplay between signal and noise in decision-making processes. The proposed theoretical framework introduces a new optimization objective for SNN training, highlighting the importance of not only the accuracy of decisions but also the development of predictive confidence through learning from past experiences. Experimental results demonstrate that SNNs trained according to this framework exhibit improved confidence expression, leading to better decision-making outcomes. In addition, a strategy is introduced for efficient decision-making during inference, which allows SNNs to complete tasks more quickly and can use stopping times as indicators of decision confidence. By integrating neuroscience insights with neuromorphic computing, this study opens up new possibilities to explore the capabilities of SNNs and advance their application in complex decision-making scenarios.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 深層学習を伴う乳房温存手術における術中腫瘍マージンの評価

Intra-operative tumour margin evaluation in breast-conserving surgery with deep learning ( http://arxiv.org/abs/2404.10600v1 )

ライセンス: Link先を確認
Wei-Chung Shia, Yu-Len Huang, Yi-Chun Chen, Hwa-Koon Wu, Dar-Ren Chen, (参考訳) 悪性腫瘍に対する乳房留置術後の局所再発のリスクが増大する可能性がある。 正のマージン数を減らすために、外科医は、正の切除マージンの存在についてリアルタイムに術中情報を提供する。 本研究の目的は,乳房温存手術における検体マンモグラフィーを用いて術中マージン評価法を設計することである。 症例は30例で,手動で判定した輪郭を経験医と病理検査で比較した。 提案手法は画像しきい値を用いて興味のある領域を抽出し,腫瘍組織をセグメント化する深層学習モデルであるSegNetを実行する。 その結果, 周囲の正常組織の縁幅が評価された。 腫瘍周囲に所望の大きさが10mmと設定された。 手書きスケッチによるマージンの最小差(6.53 mm +- 5.84)。 いずれの場合も,SegNetアーキテクチャを用いて組織標本境界と腫瘍輪郭をそれぞれ取得した。 シミュレーションの結果,本技術は術後の陰性マージンと陰性マージンの識別に有用であることが示唆された。 提案手法は術中測定システムにおける潜在的手順である。 実験結果から, 深層学習技術は病理報告と整合性のある結果を引き出すことができることがわかった。

A positive margin may result in an increased risk of local recurrences after breast retention surgery for any malignant tumour. In order to reduce the number of positive margins would offer surgeon real-time intra-operative information on the presence of positive resection margins. This study aims to design an intra-operative tumour margin evaluation scheme by using specimen mammography in breast-conserving surgery. Total of 30 cases were evaluated and compared with the manually determined contours by experienced physicians and pathology report. The proposed method utilizes image thresholding to extract regions of interest and then performs a deep learning model, i.e. SegNet, to segment tumour tissue. The margin width of normal tissues surrounding it is evaluated as the result. The desired size of margin around the tumor was set for 10 mm. The smallest average difference to manual sketched margin (6.53 mm +- 5.84). In the all case, the SegNet architecture was utilized to obtain tissue specimen boundary and tumor contour, respectively. The simulation results indicated that this technology is helpful in discriminating positive from negative margins in the intra-operative setting. The aim of proposed scheme was a potential procedure in the intra-operative measurement system. The experimental results reveal that deep learning techniques can draw results that are consistent with pathology reports.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 持続的モバイルネットワークアーキテクチャ設計のための量子鍵分布を用いたポスト量子暗号の探索

Exploring Post Quantum Cryptography with Quantum Key Distribution for Sustainable Mobile Network Architecture Design ( http://arxiv.org/abs/2404.10602v1 )

ライセンス: Link先を確認
Sanzida Hoque, Abdullah Aydeger, Engin Zeydan, (参考訳) モバイルネットワークの普及と、量子コンピューティングの脅威の出現と相まって、サイバーセキュリティの新たな課題と機会が提示される。 本稿では、これらの重要なインフラを、運用持続可能性を考慮して、将来の量子攻撃から守る複雑さに対処する。 まず、現在の状況の概要、モバイルネットワークの主な脆弱性の特定、新しい量子後暗号(PQC)手法による既存のセキュリティソリューションの評価から始める。 次に,PQC とQuantum Key Distribution (QKD) を備えた量子セキュアアーキテクチャを提案する。 さらに,PQCアルゴリズムファミリーの包括的解析を行い,特にエネルギー消費とセキュリティ改善のトレードオフに着目し,モバイル環境への統合性に着目した。 最後に、現在の課題と機会の詳細な調査を通じて、量子脅威に対するモバイルネットワーク強化の勧告を提供する。

The proliferation of mobile networks and their increasing importance to modern life, combined with the emerging threat of quantum computing, present new challenges and opportunities for cybersecurity. This paper addresses the complexity of protecting these critical infrastructures against future quantum attacks while considering operational sustainability. We begin with an overview of the current landscape, identify the main vulnerabilities in mobile networks, and evaluate existing security solutions with new post-quantum cryptography (PQC) methods. We then present a quantum-secure architecture with PQC and Quantum Key Distribution (QKD) tailored explicitly for sustainable mobile networks and illustrate its applicability with several use cases that emphasize the need for advanced protection measures in this new era. In addition, a comprehensive analysis of PQC algorithm families is presented, focusing on their suitability for integration in mobile environments, with particular attention to the trade-offs between energy consumption and security improvements. Finally, recommendations for strengthening mobile networks against quantum threats are provided through a detailed examination of current challenges and opportunities.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# クロスビュー対応を用いたテキスト・ツー・3Dの3次元忠実度向上

Enhancing 3D Fidelity of Text-to-3D using Cross-View Correspondences ( http://arxiv.org/abs/2404.10603v1 )

ライセンス: Link先を確認
Seungwook Kim, Kejie Li, Xueqing Deng, Yichun Shi, Minsu Cho, Peng Wang, (参考訳) マルチビュー拡散モデルを3次元最適化の先行として活用することで、ゼロショットテキスト・ツー・3Dモデルにおける3次元整合性の問題、例えばヤヌス面問題やコンテンツドリフト問題を軽減することができる。 しかし、出力の3次元幾何学的忠実度は未解決の問題であり、レンダリングされた2次元ビューは現実的であるが、基礎となる幾何学は不合理な凹凸のような誤りを含むかもしれない。 本研究では,NeRF最適化プロセスに先立って,拡散U-Netから得られるアノテーションのないクロスビュー対応を活用するための効果的な手法であるCor correspondingentDreamを提案する。 これらの対応は人間の知覚と強く一致しており、損失設計に採用することにより、一般的な感覚、例えば、より滑らかな物体表面とのコヒーレントなジオメトリーを持つNeRFモデルを作成でき、より高い3次元忠実度が得られる。 提案手法の有効性を,様々な定性的な結果とユーザスタディを通じて実証する。

Leveraging multi-view diffusion models as priors for 3D optimization have alleviated the problem of 3D consistency, e.g., the Janus face problem or the content drift problem, in zero-shot text-to-3D models. However, the 3D geometric fidelity of the output remains an unresolved issue; albeit the rendered 2D views are realistic, the underlying geometry may contain errors such as unreasonable concavities. In this work, we propose CorrespondentDream, an effective method to leverage annotation-free, cross-view correspondences yielded from the diffusion U-Net to provide additional 3D prior to the NeRF optimization process. We find that these correspondences are strongly consistent with human perception, and by adopting it in our loss design, we are able to produce NeRF models with geometries that are more coherent with common sense, e.g., more smoothed object surface, yielding higher 3D fidelity. We demonstrate the efficacy of our approach through various comparative qualitative results and a solid user study.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# トンネルに光を照らす:住宅用プロキシのネットワークトラフィックの理解と分類

Shining Light into the Tunnel: Understanding and Classifying Network Traffic of Residential Proxies ( http://arxiv.org/abs/2404.10610v1 )

ライセンス: Link先を確認
Ronghong Huang, Dongfang Zhao, Xianghang Mi, Xiaofeng Wang, (参考訳) 近年の住宅プロキシ(RESIP)は,従来のネットワークプロキシ(商用VPNなど)と比較して,特にデータセンタネットワークよりも住宅ネットワークへの展開,数万の都市やISPの世界的な分布,数百万のエグジットノードの大規模展開など,さまざまな特徴がある。 これらすべての要因により、RESIPユーザーは、特に悪意のあるオンライン活動においてRESIPサービスの普及につながる、真の住宅ユーザーからのトラフィックフローを効果的に調整することができる。 しかし、RESIP(すなわち、RESIPによってどのトラフィックが中継されるか)の使用について、現在の理解は不十分であることが判明した。 特に、以前のRESIPトラフィックの研究は、Webトラフィックの悪意と、人気のあるWebサイトを訪問する際の不審なパターンについてのみ研究していた。 また,大規模なRESIPトラフィックを捕捉し,セキュリティリスクに対するRESIPトラフィックを解析することに関して,一般的な手法が欠落している。 さらに、多くのRESIPノードが企業ネットワーク内にあり、デバイス所有者やネットワーク管理者の適切な許可なくデプロイされていることを考えると、現実的なRESIPトラフィックデータセットの不足や効果的な検出方法の欠如によって、RESIPトラフィックフローを検出してブロックする必要性が高まっている。 これらのギャップを埋めるために、RESIPノードをデプロイしてRESIPトラフィックを分散的に収集する一般的なフレームワーク、RESIPトラフィックログを効率的に処理して不審なトラフィックフローをサーフェスするRESIPトラヒックアナライザ、与えられたトラフィックフローがRESIPトラフィックであるか否かをタイムリーかつ正確に検出する複数の機械学習ベースのRESIPトラヒック分類器など、複数の新しいツールが設計され実装されている。

Emerging in recent years, residential proxies (RESIPs) feature multiple unique characteristics when compared with traditional network proxies (e.g., commercial VPNs), particularly, the deployment in residential networks rather than data center networks, the worldwide distribution in tens of thousands of cities and ISPs, and the large scale of millions of exit nodes. All these factors allow RESIP users to effectively masquerade their traffic flows as ones from authentic residential users, which leads to the increasing adoption of RESIP services, especially in malicious online activities. However, regarding the (malicious) usage of RESIPs (i.e., what traffic is relayed by RESIPs), current understanding turns out to be insufficient. Particularly, previous works on RESIP traffic studied only the maliciousness of web traffic destinations and the suspicious patterns of visiting popular websites. Also, a general methodology is missing regarding capturing large-scale RESIP traffic and analyzing RESIP traffic for security risks. Furthermore, considering many RESIP nodes are found to be located in corporate networks and are deployed without proper authorization from device owners or network administrators, it is becoming increasingly necessary to detect and block RESIP traffic flows, which unfortunately is impeded by the scarcity of realistic RESIP traffic datasets and effective detection methodologies. To fill in these gaps, multiple novel tools have been designed and implemented in this study, which include a general framework to deploy RESIP nodes and collect RESIP traffic in a distributed manner, a RESIP traffic analyzer to efficiently process RESIP traffic logs and surface out suspicious traffic flows, and multiple machine learning based RESIP traffic classifiers to timely and accurately detect whether a given traffic flow is RESIP traffic or not.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# 視覚言語モデルを用いた画像からの個人属性推定

Private Attribute Inference from Images with Vision-Language Models ( http://arxiv.org/abs/2404.10618v1 )

ライセンス: Link先を確認
Batuhan Tömekçe, Mark Vero, Robin Staab, Martin Vechev, (参考訳) 大きな言語モデル(LLM)が日々のタスクやデジタルインタラクションにおいてユビキタスになるにつれて、関連するプライバシーリスクがますます注目されています。 LLMのプライバシ研究は、主にモデルトレーニングデータの漏洩に焦点を当てているが、最近、モデル能力の増大により、LLMは、これまで見つからなかったテキストから正確なプライバシ侵害推論を行うことができたことが示されている。 画像とテキストの両方を理解できるマルチモーダル視覚言語モデル(VLM)の台頭により、そのような結果が、これまで探索されていなかった、オンラインに投稿された良心的画像の領域に転送されるかどうかが、関連する疑問である。 新たに登場したVLMのイメージ推論能力に関連するリスクを調査するために,画像所有者の個人属性の人称ラベルで画像データセットをコンパイルする。 我々のデータセットは、従来の人間の属性認識以外にもVLMがもたらす追加のプライバシーリスクを理解するために、推論可能なプライベート属性が人間の直接的な描写に起因しないイメージで構成されています。 このデータセットを用いて、7つの最先端VLMの推論能力を評価し、最大77.6%の精度で様々な個人属性を推測できることを見出した。 本研究は, モデルの汎用能力とともに精度が向上し, 将来のモデルがより強力な敵として誤用されることを示唆し, 適切な防御を開発するための必須条件を確立することを目的としたものである。

As large language models (LLMs) become ubiquitous in our daily tasks and digital interactions, associated privacy risks are increasingly in focus. While LLM privacy research has primarily focused on the leakage of model training data, it has recently been shown that the increase in models' capabilities has enabled LLMs to make accurate privacy-infringing inferences from previously unseen texts. With the rise of multimodal vision-language models (VLMs), capable of understanding both images and text, a pertinent question is whether such results transfer to the previously unexplored domain of benign images posted online. To investigate the risks associated with the image reasoning capabilities of newly emerging VLMs, we compile an image dataset with human-annotated labels of the image owner's personal attributes. In order to understand the additional privacy risk posed by VLMs beyond traditional human attribute recognition, our dataset consists of images where the inferable private attributes do not stem from direct depictions of humans. On this dataset, we evaluate the inferential capabilities of 7 state-of-the-art VLMs, finding that they can infer various personal attributes at up to 77.6% accuracy. Concerningly, we observe that accuracy scales with the general capabilities of the models, implying that future models can be misused as stronger adversaries, establishing an imperative for the development of adequate defenses.
翻訳日:2024-04-17 16:34:29 公開日:2024-04-16
# トラップオン量子コンピューティングのためのSOC制御系における散乱ガスDMA性能解析

Scatter-Gather DMA Performance Analysis within an SoC-based Control System for Trapped-Ion Quantum Computing ( http://arxiv.org/abs/2404.10619v1 )

ライセンス: Link先を確認
Tiamike Dudley, Jim Plusquellic, Eirini Eleni Tsiropoulou, Joshua Goldberg, Daniel Stick, Daniel Lobser, (参考訳) Scatter-gather dynamic-Memory- Access (SG-DMA) は、メモリと周辺機器の間で高い帯域幅と低レイテンシのデータ転送を必要とするアプリケーションで使用される。 データ転送の組織と、Traped-Ion Quantum Computer (TIQC) の要件は、SG-DMAがターゲットとしているものと同様の特徴を持っている。 特に、TIQCのイオン量子ビットは、主に変調レーザーパルスからなる制御シーケンスを適用して操作される。 これらの光パルスは、電気制御系によって(再)構成されたパラメータによって定義される。 動作環境や機器のバリエーションにより、メインメモリに分散したBD領域としてうまく表現できる、広範囲の制御シーケンスの置換を作成および実行する必要がある。 本稿では,TIQC アプリケーションにおける RFSoC システムアーキテクチャの利点と限界を決定する手段として,様々な BD およびペイロードサイズで Xilinx 無線周波数 SoC (RFSoC) デバイス上での SG-DMA のレイテンシとスループットを実験的に評価する。

Scatter-gather dynamic-memory-access (SG-DMA) is utilized in applications that require high bandwidth and low latency data transfers between memory and peripherals, where data blocks, described using buffer descriptors (BDs), are distributed throughout the memory system. The data transfer organization and requirements of a Trapped-Ion Quantum Computer (TIQC) possess characteristics similar to those targeted by SG-DMA. In particular, the ion qubits in a TIQC are manipulated by applying control sequences consisting primarily of modulated laser pulses. These optical pulses are defined by parameters that are (re)configured by the electrical control system. Variations in the operating environment and equipment make it necessary to create and run a wide range of control sequence permutations, which can be well represented as BD regions distributed across the main memory. In this paper, we experimentally evaluate the latency and throughput of SG-DMA on Xilinx radiofrequency SoC (RFSoC) devices under a variety of BD and payload sizes as a means of determining the benefits and limitations of an RFSoC system architecture for TIQC applications.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# PyTorchGeoNodes:3次元形状再構成のための微分可能な形状プログラムの実現

PyTorchGeoNodes: Enabling Differentiable Shape Programs for 3D Shape Reconstruction ( http://arxiv.org/abs/2404.10620v1 )

ライセンス: Link先を確認
Sinisa Stekovic, Stefan Ainetter, Mattia D'Urso, Friedrich Fraundorfer, Vincent Lepetit, (参考訳) PyTorchGeoNodesは,解釈可能な形状プログラムを用いて画像から3Dオブジェクトを再構成する,識別可能なモジュールである。 従来のCADモデル検索法と比較して、3次元再構成のための形状プログラムを用いることで、再構成されたオブジェクトのセマンティックな性質、編集、メモリフットプリントの低さなどを推論することができる。 しかし,3次元シーン理解のための形状プログラムの利用は,過去にはほとんど無視されてきた。 私たちの主な貢献として、Blenderで設計された形状プログラムを効率的なPyTorchコードに変換するモジュールを導入することで、勾配ベースの最適化を可能にします。 また、PyTorchGeoNodesに依存し、MCTS(Monte Carlo Tree Search)にインスパイアされて、形状プログラムの離散的かつ連続的なパラメータを共同で最適化し、入力シーンのための3Dオブジェクトを再構成する方法を提供する。 実験では,ScanNetデータセットの3次元オブジェクトの再構成にアルゴリズムを適用し,CADモデル検索による再構成に対して評価を行った。 本実験は, 再構成対象のセマンティック推論を可能としつつ, 入力シーンによく適合することを示す。

We propose PyTorchGeoNodes, a differentiable module for reconstructing 3D objects from images using interpretable shape programs. In comparison to traditional CAD model retrieval methods, the use of shape programs for 3D reconstruction allows for reasoning about the semantic properties of reconstructed objects, editing, low memory footprint, etc. However, the utilization of shape programs for 3D scene understanding has been largely neglected in past works. As our main contribution, we enable gradient-based optimization by introducing a module that translates shape programs designed in Blender, for example, into efficient PyTorch code. We also provide a method that relies on PyTorchGeoNodes and is inspired by Monte Carlo Tree Search (MCTS) to jointly optimize discrete and continuous parameters of shape programs and reconstruct 3D objects for input scenes. In our experiments, we apply our algorithm to reconstruct 3D objects in the ScanNet dataset and evaluate our results against CAD model retrieval-based reconstructions. Our experiments indicate that our reconstructions match well the input scenes while enabling semantic reasoning about reconstructed objects.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# 直交直列密度推定を用いたコプラ型リスクアグリゲーションの量子アルゴリズム

Quantum algorithm for copula-based risk aggregation using orthogonal series density estimation ( http://arxiv.org/abs/2404.10624v1 )

ライセンス: Link先を確認
Hitomi Mori, Koichi Miyamoto, (参考訳) 量子モンテカルロ積分(QMCI)は、古典的手法よりも2次的なスピードアップを提供し、金融を含む様々な分野でその応用が研究されている。 本稿では、金融リスク管理における最も重要な数値課題の一つであるリスクアグリゲーションへの適用について考察する。 リスクアグリゲーションは、いくつかのリスク変数を組み合わせて、それらの相関を考慮して、リスクの総量を定量化する。 このタスクのために、コプラと呼ばれる便利なツールが存在し、そこでは、フレキシブルな相関構造を持つ境界分布から関節分布を生成することができる。 古典的には、コプラ法はリスク変数のサンプリングを利用する。 しかし、この手順は、サンプリングされた値が古典的なデータとして保存されず、効率的な量子アルゴリズムが知られていない量子設定に直接適用されない。 本稿では,QMCIと互換性のあるコプラ型リスクアグリゲーションのための量子アルゴリズムを提案する。 本アルゴリズムでは,まず各辺分布を直交関数の列として推定し,QMCIを用いて係数を計算する。 次に,コプラに限界分布を挿入し,共同分布を得ることにより,再びQMCIを用いたリスク対策を推定する。 このアルゴリズムでは、ほぼ2次量子スピードアップが十分に滑らかな境界分布のために得られる。

Quantum Monte Carlo integration (QMCI) provides a quadratic speed-up over its classical counterpart, and its applications have been investigated in various fields, including finance. This paper considers its application to risk aggregation, one of the most important numerical tasks in financial risk management. Risk aggregation combines several risk variables and quantifies the total amount of risk, taking into account the correlation among them. For this task, there exists a useful tool called copula, with which the joint distribution can be generated from marginal distributions with a flexible correlation structure. Classically, the copula-based method utilizes sampling of risk variables. However, this procedure is not directly applicable to the quantum setting, where sampled values are not stored as classical data, and thus no efficient quantum algorithm is known. In this paper, we propose a quantum algorithm for copula-based risk aggregation that is compatible with QMCI. In our algorithm, we first estimate each marginal distribution as a series of orthogonal functions, where the coefficients can be calculated with QMCI. Then, by plugging the marginal distributions into the copula and obtaining the joint distribution, we estimate risk measures using QMCI again. With this algorithm, nearly quadratic quantum speed-up can be obtained for sufficiently smooth marginal distributions.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# ガウス・スティング・デコーダによる3次元対応型生成逆数ネットワークの構築

Gaussian Splatting Decoder for 3D-aware Generative Adversarial Networks ( http://arxiv.org/abs/2404.10625v1 )

ライセンス: Link先を確認
Florian Barthel, Arian Beckmann, Wieland Morgenstern, Anna Hilsmann, Peter Eisert, (参考訳) EG3D や GIRAFFE のような NeRF ベースの3D-aware Generative Adversarial Networks (GAN) は、非常に高いレンダリング品質を示す。 第一に、NeRFレンダリングの計算上の重要な要求は、モバイルやVR/ARヘッドセットのような低消費電力デバイスでの使用を妨げます。 第二に、ニューラルネットワークに基づく暗黙の表現は、VR環境やビデオゲームのような明示的な3Dシーンに組み込むのは難しい。 3D Gaussian Splatting (3DGS)は、高フレームレートで効率的にレンダリングできる明示的な3D表現を提供することによって、これらの制限を克服する。 本研究では,NeRFをベースとした3次元GANの高画質化と,3DGSの柔軟性と計算上の利点を組み合わせた新しい手法を提案する。 暗黙的なNeRF表現を明示的な3Dガウススプラッティング属性にマッピングするデコーダをトレーニングすることにより、3Dガウススプラッティングのエコシステムに3D GANの表現多様性と品質を初めて組み込むことができる。 さらに,本手法により,高分解能GANインバージョンとリアルタイムGAN編集が可能となる。

NeRF-based 3D-aware Generative Adversarial Networks (GANs) like EG3D or GIRAFFE have shown very high rendering quality under large representational variety. However, rendering with Neural Radiance Fields poses challenges for 3D applications: First, the significant computational demands of NeRF rendering preclude its use on low-power devices, such as mobiles and VR/AR headsets. Second, implicit representations based on neural networks are difficult to incorporate into explicit 3D scenes, such as VR environments or video games. 3D Gaussian Splatting (3DGS) overcomes these limitations by providing an explicit 3D representation that can be rendered efficiently at high frame rates. In this work, we present a novel approach that combines the high rendering quality of NeRF-based 3D-aware GANs with the flexibility and computational advantages of 3DGS. By training a decoder that maps implicit NeRF representations to explicit 3D Gaussian Splatting attributes, we can integrate the representational diversity and quality of 3D GANs into the ecosystem of 3D Gaussian Splatting for the first time. Additionally, our approach allows for a high resolution GAN inversion and real-time GAN editing with 3D Gaussian Splatting scenes.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# 都市キャノピー予測のためのゼロショットと少数サンプルアン教師なし領域適応のための選択的画像マッチング手法の探索

Exploring selective image matching methods for zero-shot and few-sample unsupervised domain adaptation of urban canopy prediction ( http://arxiv.org/abs/2404.10626v1 )

ライセンス: Link先を確認
John Francis, Stephen Law, (参考訳) 我々は、ドメイン適応型分類器と広範囲な微調整を訓練することなく、リモートセンシングデータを用いて、キャノピーカバーと高さを新しい地理的設定に予測する訓練されたマルチタスクUNetの適応方法を探る。 過去の研究を延長し、我々は2つの地理的領域で類似した画像を特定するための選択的なアライメントプロセスに従い、ゼロショット設定でデータベースの教師なしドメイン適応手法の配列を少量の微調整とともにテストした。 選択整列データに基づく画像マッチング手法は、ゼロショット設定で有望な結果をもたらす。 これらの手法は、非変換ベースラインと一般的なデータベース画像変換モデルの両方より優れている。 最適な手法は, キャノピーカバーと高さタスクの画素分布適応とフーリエ領域適応であった。

We explore simple methods for adapting a trained multi-task UNet which predicts canopy cover and height to a new geographic setting using remotely sensed data without the need of training a domain-adaptive classifier and extensive fine-tuning. Extending previous research, we followed a selective alignment process to identify similar images in the two geographical domains and then tested an array of data-based unsupervised domain adaptation approaches in a zero-shot setting as well as with a small amount of fine-tuning. We find that the selective aligned data-based image matching methods produce promising results in a zero-shot setting, and even more so with a small amount of fine-tuning. These methods outperform both an untransformed baseline and a popular data-based image-to-image translation model. The best performing methods were pixel distribution adaptation and fourier domain adaptation on the canopy cover and height tasks respectively.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# スピン冷凍空洞量子力学センサ

A spin-refrigerated cavity quantum electrodynamic sensor ( http://arxiv.org/abs/2404.10628v1 )

ライセンス: Link先を確認
Hanfeng Wang, Kunal L. Tiwari, Kurt Jacobs, Michael Judy, Xin Zhang, Dirk R. Englund, Matthew E. Trusheim, (参考訳) 固体欠陥に基づく量子センサ、特にダイヤモンド中の窒素空孔(NV)中心は、磁場、温度、回転、電場を正確に測定することができる。 しかし、先導NVスピンアンサンブルセンサの感度は、本質的なスピン投射雑音限界からかけ離れている。 ここでは、この量子的なパフォーマンスの限界に向かって、導入する。 (i)マイクロ波ホモダイン検出によるNVアンサンブルの高読み出し忠実性を実現する、強結合系で動作する空洞量子電磁力学(cQED)ハイブリッドシステム 2)NVアンサンブル不均一性及び光偏光を含むcQEDセンサ動作の包括的非線形モデル 三)光偏光スピンアンサンブルが周囲のマイクロ波熱雑音を著しく低減し、感度を高める「スピン冷凍」。 これらの進歩を磁気計測に適用し、周囲条件下では580 fT/$\sqrt{\mathrm{Hz}}$約15 kHzのブロードバンド感度を示す。 次に,12 fT/$\sqrt{\mathrm{Hz}}$ sensitivity に接近するデバイスを含む,将来の磁気センサの設計におけるこのモデルの有効性について議論する。 これらの技術の応用はジャイロスコープとクロック技術の分野にまで及んでいる。

Quantum sensors based on solid-state defects, in particular nitrogen-vacancy (NV) centers in diamond, enable precise measurement of magnetic fields, temperature, rotation, and electric fields. However, the sensitivity of leading NV spin ensemble sensors remains far from the intrinsic spin-projection noise limit. Here we move towards this quantum limit of performance by introducing (i) a cavity quantum electrodynamic (cQED) hybrid system operating in the strong coupling regime, which enables high readout fidelity of an NV ensemble using microwave homodyne detection; (ii) a comprehensive nonlinear model of the cQED sensor operation, including NV ensemble inhomogeneity and optical polarization; and (iii) ``spin refrigeration'' where the optically-polarized spin ensemble sharply reduces the ambient-temperature microwave thermal noise, resulting in enhanced sensitivity. Applying these advances to magnetometry, we demonstrate a broadband sensitivity of 580 fT/$\sqrt{\mathrm{Hz}}$ around 15 kHz in ambient conditions. We then discuss the implications of this model for design of future magnetometers, including devices approaching 12 fT/$\sqrt{\mathrm{Hz}}$ sensitivity. Applications of these techniques extend to the fields of gyroscope and clock technologies.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# HLAT: AWS Trainiumで事前トレーニングされた高品質の大規模言語モデル

HLAT: High-quality Large Language Model Pre-trained on AWS Trainium ( http://arxiv.org/abs/2404.10630v1 )

ライセンス: Link先を確認
Haozheng Fan, Hao Zhou, Guangtai Huang, Parameswaran Raman, Xinwei Fu, Gaurav Gupta, Dhananjay Ram, Yida Wang, Jun Huan, (参考訳) 大きな言語モデル(LLM)を下流のタスクでうまく動作させるためには、数兆以上のトークンを事前トレーニングする必要があります。 これは通常、トレーニングを加速する安定した分散トレーニングフレームワークに加えて、多数の強力な計算装置を必要とする。 AI/MLを活用したアプリケーションの増加は、高価な従来のアクセラレータ(GPUなど)の不足につながった。 AWS Trainiumは、大規模なディープラーニングモデルのトレーニング用に開発された、第2世代のマシンラーニングアクセラレータである。 対応するインスタンスであるAmazon EC2 trn1は、LLMトレーニング用のGPUインスタンスに代わるものだ。 しかし、trn1上で数十億のパラメータでLSMをトレーニングするのは、比較的初期段階のソフトウェアエコシステムのため、難しい。 本稿では、trn1インスタンスを1.8兆トークン以上で事前トレーニングした70億のパラメータデコーダのみのLLMであるHLATについて紹介する。 HLATのパフォーマンスは、それぞれNVIDIA GPUとGoogle TPUでトレーニングされているLLaMAやOpenLLaMAなど、人気のあるオープンソースベースラインモデルと比較される。 様々な評価課題において,HLATがベースラインと同等のモデル品質を達成することを示す。 また、AWS Trainium用にカスタマイズされた分散トレーニングライブラリであるNeuron Distributed Training Library(NDTL)を使用することで、効率的なトレーニングを実現しています。 我々の研究は、NDTLをベースとしたAWS Trainiumが、高性能で費用対効果の高い最先端のLLMモデルの事前トレーニングに成功できることを実証している。

Getting large language models (LLMs) to perform well on the downstream tasks requires pre-training over trillions of tokens. This typically demands a large number of powerful computational devices in addition to a stable distributed training framework to accelerate the training. The growing number of applications leveraging AI/ML had led to a scarcity of the expensive conventional accelerators (such as GPUs), which begs the need for the alternative specialized-accelerators that are scalable and cost-efficient. AWS Trainium is the second-generation machine learning accelerator that has been purposely built for training large deep learning models. Its corresponding instance, Amazon EC2 trn1, is an alternative to GPU instances for LLM training. However, training LLMs with billions of parameters on trn1 is challenging due to its relatively nascent software ecosystem. In this paper, we showcase HLAT: a 7 billion parameter decoder-only LLM pre-trained using trn1 instances over 1.8 trillion tokens. The performance of HLAT is benchmarked against popular open source baseline models including LLaMA and OpenLLaMA, which have been trained on NVIDIA GPUs and Google TPUs, respectively. On various evaluation tasks, we show that HLAT achieves model quality on par with the baselines. We also share the best practice of using the Neuron Distributed Training Library (NDTL), a customized distributed training library for AWS Trainium to achieve efficient training. Our work demonstrates that AWS Trainium powered by the NDTL is able to successfully pre-train state-of-the-art LLM models with high performance and cost-effectiveness.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# Contextrast:セマンティックセグメンテーションのためのコンテキストコントラスト学習

Contextrast: Contextual Contrastive Learning for Semantic Segmentation ( http://arxiv.org/abs/2404.10633v1 )

ライセンス: Link先を確認
Changki Sung, Wanhee Kim, Jungho An, Wooju Lee, Hyungtae Lim, Hyun Myung, (参考訳) セマンティックセグメンテーションの大幅な改善にもかかわらず、ローカル/グローバルコンテキストの欠如とそれらの関係により、課題は継続する。 本稿では,ローカル/グローバルなコンテキストをキャプチャし,それらの関係を理解するための,コントラッシブな学習ベースセマンティックセマンティックセマンティックセマンティクス手法であるContextrastを提案する。 提案手法は2つの部分から構成される。 a)文脈コントラスト学習(CCL)と b) 境界対応陰性(BANE)サンプリング。 文脈的コントラスト学習は、マルチスケールの特徴集約と、より優れた識別能力のための特徴の相互/イントラ関係から局所的/言語的コンテキストを得る。 一方、BANEサンプリングでは、不正確な予測領域の境界に沿って埋め込み特徴を抽出し、それらを対比学習においてより厳しい負のサンプルとして使用し、きめ細かな詳細を利用して境界領域に沿ったセグメンテーション問題を解消する。 我々のContextrastはセマンティックセグメンテーションネットワークの性能を大幅に向上させ、様々な公共データセット、例えばCityscapes, CamVid, PASCAL-C, COCO-Stuff, ADE20Kにおける最先端のコントラスト学習アプローチを、推論の計算コストを増大させることなく向上させることを示した。

Despite great improvements in semantic segmentation, challenges persist because of the lack of local/global contexts and the relationship between them. In this paper, we propose Contextrast, a contrastive learning-based semantic segmentation method that allows to capture local/global contexts and comprehend their relationships. Our proposed method comprises two parts: a) contextual contrastive learning (CCL) and b) boundary-aware negative (BANE) sampling. Contextual contrastive learning obtains local/global context from multi-scale feature aggregation and inter/intra-relationship of features for better discrimination capabilities. Meanwhile, BANE sampling selects embedding features along the boundaries of incorrectly predicted regions to employ them as harder negative samples on our contrastive learning, resolving segmentation issues along the boundary region by exploiting fine-grained details. We demonstrate that our Contextrast substantially enhances the performance of semantic segmentation networks, outperforming state-of-the-art contrastive learning approaches on diverse public datasets, e.g. Cityscapes, CamVid, PASCAL-C, COCO-Stuff, and ADE20K, without an increase in computational cost during inference.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# 自己演奏型言語ゲームはLLM推論を促進する

Self-playing Adversarial Language Game Enhances LLM Reasoning ( http://arxiv.org/abs/2404.10642v1 )

ライセンス: Link先を確認
Pengyu Cheng, Tianhao Hu, Han Xu, Zhisong Zhang, Yong Dai, Lei Han, Nan Du, (参考訳) 本稿では,大言語モデル (LLM) の自己演奏訓練手順を,Adversarial Taboo と呼ばれる2人対戦型言語ゲームで検討する。 このゲームでは、攻撃者とディフェンダーは、攻撃者にのみ見えるターゲット語について通信する。 攻撃者は攻撃者の発話から標的の単語を推測しようとするが、攻撃者は攻撃者の発話からターゲットの単語を無意識に発声するようディフェンダーに誘導する。 ゲームに勝つためには、両プレイヤーは目標語について十分な知識と、この情報保存された会話の中で推論し表現する高レベルの推論能力を持つ必要がある。 したがって、この逆言語ゲーム(SPAG)において、自己再生によりLSMの推論能力がさらに向上できるかどうかを疑問視している。 この目標により、LLMは攻撃者として振る舞うことができ、広範囲のターゲットワードのディフェンダーとして自分自身のコピーで遊ぶことができます。 ゲーム結果の強化学習を通じて、LLMの性能が幅広い推論ベンチマークで一様に改善されることを観察する。 さらに、この自己再生プロセスを反復的に採用することで、LLMの推論能力を継続的に促進することができる。 コードはhttps://github.com/Linear95/SPAGにある。

We explore the self-play training procedure of large language models (LLMs) in a two-player adversarial language game called Adversarial Taboo. In this game, an attacker and a defender communicate with respect to a target word only visible to the attacker. The attacker aims to induce the defender to utter the target word unconsciously, while the defender tries to infer the target word from the attacker's utterances. To win the game, both players should have sufficient knowledge about the target word and high-level reasoning ability to infer and express in this information-reserved conversation. Hence, we are curious about whether LLMs' reasoning ability can be further enhanced by Self-Play in this Adversarial language Game (SPAG). With this goal, we let LLMs act as the attacker and play with a copy of itself as the defender on an extensive range of target words. Through reinforcement learning on the game outcomes, we observe that the LLMs' performance uniformly improves on a broad range of reasoning benchmarks. Furthermore, iteratively adopting this self-play process can continuously promote LLM's reasoning ability. The code is at https://github.com/Linear95/SPAG.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# 連続制御強化学習:分散分散DrQアルゴリズム

Continuous Control Reinforcement Learning: Distributed Distributional DrQ Algorithms ( http://arxiv.org/abs/2404.10645v1 )

ライセンス: Link先を確認
Zehao Zhou, (参考訳) 分散分散分散DrQ(Distributed Distributional DrQ)は、エージェントの状態と観察に基づく連続的な制御タスクのためのモデルフリーで非政治的なRLアルゴリズムである。 エージェントを制御し、高次元連続空間でタスクをマスターすることを学ぶこと。 DrQ-v2はDDPGをバックボーンとして使用し、様々な連続制御タスクでパフォーマンスを向上する。 ここで、分散分散DrQは分散分散分散DDPGをバックボーンとして使用し、分散値関数と分散アクターポリシーのより良い表現能力により、ハードな連続制御タスクにおいてより良いパフォーマンスを達成することを目的としている。

Distributed Distributional DrQ is a model-free and off-policy RL algorithm for continuous control tasks based on the state and observation of the agent, which is an actor-critic method with the data-augmentation and the distributional perspective of critic value function. Aim to learn to control the agent and master some tasks in a high-dimensional continuous space. DrQ-v2 uses DDPG as the backbone and achieves out-performance in various continuous control tasks. Here Distributed Distributional DrQ uses Distributed Distributional DDPG as the backbone, and this modification aims to achieve better performance in some hard continuous control tasks through the better expression ability of distributional value function and distributed actor policies.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# 共有艦隊データを用いた効率的な駐車探索

Efficient Parking Search using Shared Fleet Data ( http://arxiv.org/abs/2404.10646v1 )

ライセンス: Link先を確認
Niklas Strauß, Lukas Rottkamp, Sebatian Schmoll, Matthias Schubert, (参考訳) 路上駐車場の設置は、日々の生活に欠かせない問題である。 近年、メルボルンやサンフランシスコなどの都市は、駐車場の占有に関するリアルタイム情報を提供するセンサーを配備している。 このようなスマートな環境で自由駐車場所を見つけることは、マルコフ決定プロセス(MDP)としてモデル化して解決することができる。 その間、他の車両も駐車スペースを主張しているため、到着まで駐車場が利用できない可能性があるため、不確実性を考慮する必要がある。 環境中の全ての車両の駐車意図を知ることは、この不確実性を排除します。 残念なことに、現在すべての車からそのようなデータを得るのは現実的とは思えない。 対照的に、車両や車両のサブセットからデータを取得することは実現可能であり、不確実性を減らす可能性がある。 本稿では,車両内のデータ共有が,特定のドライバーの検索時間にどの程度有用か,という課題について考察する。 私たちは、到着時の駐車場の可用性をより正確に見積もるために、艦隊データを使用します。 大規模シナリオに対する最適解は実現不可能であるため,本手法は単一エージェント設定でよく動作することを示す近似解に基づく。 本研究では,メルボルン市の実世界と合成データを用いたシミュレーションを行った。 その結果、車両データは利用可能な駐車場の検索時間を著しく短縮できることがわかった。

Finding an available on-street parking spot is a relevant problem of day-to-day life. In recent years, cities such as Melbourne and San Francisco deployed sensors that provide real-time information about the occupation of parking spots. Finding a free parking spot in such a smart environment can be modeled and solved as a Markov decision process (MDP). The problem has to consider uncertainty as available parking spots might not remain available until arrival due to other vehicles also claiming spots in the meantime. Knowing the parking intention of every vehicle in the environment would eliminate this uncertainty. Unfortunately, it does currently not seem realistic to have such data from all vehicles. In contrast, acquiring data from a subset of vehicles or a vehicle fleet appears feasible and has the potential to reduce uncertainty. In this paper, we examine the question of how useful sharing data within a vehicle fleet might be for the search times of particular drivers. We use fleet data to better estimate the availability of parking spots at arrival. Since optimal solutions for large scenarios are infeasible, we base our method on approximate solutions, which have been shown to perform well in single-agent settings. Our experiments are conducted on a simulation using real-world and synthetic data from the city of Melbourne. The results indicate that fleet data can significantly reduce search times for an available parking spot.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# ViTextVQA:ベトナム語画像の理解度を評価するための大規模ビジュアル質問回答データセット

ViTextVQA: A Large-Scale Visual Question Answering Dataset for Evaluating Vietnamese Text Comprehension in Images ( http://arxiv.org/abs/2404.10652v1 )

ライセンス: Link先を確認
Quan Van Nguyen, Dan Quang Tran, Huy Quang Pham, Thang Kien-Bao Nguyen, Nghia Hieu Nguyen, Kiet Van Nguyen, Ngan Luu-Thuy Nguyen, (参考訳) VQA(Visual Question Answering)は、自然言語と画像を同時に処理する能力を必要とする複雑なタスクである。 当初、このタスクは、マシンが画像内のオブジェクトやシーンコンテキストを理解するのを助ける方法に焦点を当てて研究された。 しかし、画像の完全な内容に関する明示的な情報を含む画像に現れるテキストについては言及されていない。 AI時代の継続的な発展とともに、世界中のVQAモデルの読解能力について多くの研究がなされている。 発展途上国として、状況はまだ限られており、ベトナムでは依然としてこの課題が開かれている。 そこで,画像に現れるテキストを理解する能力に特化してベトナム初の大規模データセットを導入し,それをViTextVQA (\textbf{Vi}etnamese \textbf{Text}-based \textbf{V}isual \textbf{Q}uestion \textbf{A}nswering dataset) と呼ぶ。 各種最先端モデルを用いた綿密な実験により,OCRテキスト中のトークンを処理し,回答を定式化するために選択する順序の重要性を明らかにする。 この発見は、ViTextVQAデータセットのベースラインモデルの性能を大幅に向上させるのに役立ちました。 私たちのデータセットは、研究目的のために、この \href{https://github.com/minhquan6203/ViTextVQA-Dataset}{link} で利用可能です。

Visual Question Answering (VQA) is a complicated task that requires the capability of simultaneously processing natural language and images. Initially, this task was researched, focusing on methods to help machines understand objects and scene contexts in images. However, some text appearing in the image that carries explicit information about the full content of the image is not mentioned. Along with the continuous development of the AI era, there have been many studies on the reading comprehension ability of VQA models in the world. As a developing country, conditions are still limited, and this task is still open in Vietnam. Therefore, we introduce the first large-scale dataset in Vietnamese specializing in the ability to understand text appearing in images, we call it ViTextVQA (\textbf{Vi}etnamese \textbf{Text}-based \textbf{V}isual \textbf{Q}uestion \textbf{A}nswering dataset) which contains \textbf{over 16,000} images and \textbf{over 50,000} questions with answers. Through meticulous experiments with various state-of-the-art models, we uncover the significance of the order in which tokens in OCR text are processed and selected to formulate answers. This finding helped us significantly improve the performance of the baseline models on the ViTextVQA dataset. Our dataset is available at this \href{https://github.com/minhquan6203/ViTextVQA-Dataset}{link} for research purposes.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# 非マルコフ量子状態拡散による開量子ダイナミクスの量子シミュレーション

Quantum Simulation of Open Quantum Dynamics via Non-Markovian Quantum State Diffusion ( http://arxiv.org/abs/2404.10655v1 )

ライセンス: Link先を確認
Yu Kaiguo, Xing Gao, (参考訳) 非マルコフ的開量子力学の量子シミュレーションは、非エルミート性のために標準量子コンピュータにとって不可欠であるが、非単位的進化と利用可能な量子資源の限界をもたらす。 本稿では,非マルコフ環境下での散逸ダイナミクスをシミュレーションするためのハイブリッド量子古典アルゴリズムを提案する。 提案手法は,非マルコフ確率Schr\"odinger方程式を複素周波数モード (cNMSSE) で定式化することを含む。 これに続いて、変分量子シミュレーションを用いて、cNMSSEフレームワーク内の非単位進化を捉えることにより、量子ビット要求を大幅に削減する。 本研究では,スピンボソンモデルと動的量子相転移(DQPT)を横場イジングモデル(TFIM)内で検討した。 以上の結果から,非マルコフ行動によるTFIMのDQPTの増強が示唆された。

Quantum simulation of non-Markovian open quantum dynamics is essential but challenging for standard quantum computers due to their non-Hermitian nature, leading to non-unitary evolution, and the limitations of available quantum resources. Here we introduce a hybrid quantum-classical algorithm designed for simulating dissipative dynamics in system with non-Markovian environment. Our approach includes formulating a non-Markovian Stochastic Schr\"odinger equation with complex frequency modes (cNMSSE) where the non-Markovianity is characterized by the mode excitation. Following this, we utilize variational quantum simulation to capture the non-unitary evolution within the cNMSSE framework, leading to a substantial reduction in qubit requirements. To demonstrate our approach, we investigated the spin-boson model and dynamic quantum phase transitions (DQPT) within transverse field Ising model (TFIM). Significantly, our findings reveal the enhanced DQPT in TFIM due to non-Markovian behavior.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# 量子時代のサイバーセキュリティ: 量子コンピューティングがインフラに与える影響を評価する

Cybersecurity in the Quantum Era: Assessing the Impact of Quantum Computing on Infrastructure ( http://arxiv.org/abs/2404.10659v1 )

ライセンス: Link先を確認
Yaser Baseri, Vikas Chouhan, Ali Ghorbani, (参考訳) 量子コンピューティングの出現は、サイバーセキュリティのための二重刃の剣を提示する。 その膨大なパワーは、様々な分野の進歩を約束する一方で、現在の暗号化手法の基礎を突破する恐れもある。 アプリケーション、データ、ランタイム、ミドルウェア、オペレーティングシステム、仮想化、ハードウェア、ストレージ、ネットワークなど、さまざまなレイヤにわたる潜在的な脆弱性を慎重に評価する。 我々は、量子耐性暗号の開発と実装のために、積極的なセキュリティ戦略とセクター間の協力を提唱する。 この重要なシフトは、包括的なアプローチを必要とし、9つの重要なインフラストラクチャコンポーネントを含む、カスタマイズされたセキュリティ青写真を紹介します。 この青写真は、量子的に引き起こされる潜在的なサイバー脅威に対する各地域の防御を強化する。 私たちの戦略的脆弱性とリスクアセスメントは、複雑な量子脅威の風景をナビゲートする知識をステークホルダーに与えます。 これにより、設計、実装、ポリシーの定式化に関する情報的な決定を下すことができ、最終的には重要なインフラストラクチャのレジリエンスを高めます。 本質的に、この分析は量子の脅威を予測するだけでなく、量子時代の多面的課題に対してインフラとクラウド環境を要塞化するための洗練された、実用的なフレームワークも提供する。 この積極的なアプローチは、今後数年間のデータセキュリティとデジタル環境の繁栄を確実にする

The emergence of quantum computing presents a double-edged sword for cybersecurity. While its immense power holds promise for advancements in various fields, it also threatens to crack the foundation of current encryption methods. This analysis explores the impact of quantum computing on critical infrastructure and cloud services, meticulously evaluating potential vulnerabilities across various layers, including applications, data, runtime, middleware, operating systems, virtualization, hardware, storage, and networks. We advocate for proactive security strategies and collaboration between sectors to develop and implement quantum-resistant cryptography. This crucial shift necessitates a comprehensive approach, and the paper introduces a tailored security blueprint encompassing nine critical infrastructure components. This blueprint strengthens each area's defenses against potential quantum-induced cyber threats. Our strategic vulnerability and risk assessment equips stakeholders with the knowledge to navigate the complex quantum threat landscape. This empowers them to make informed decisions about design, implementation, and policy formulation, ultimately bolstering the resilience of critical infrastructure. In essence, this analysis not only forecasts quantum threats but also offers a sophisticated, actionable framework for fortifying infrastructure and cloud environments against the multifaceted challenges of the quantum era. This proactive approach will ensure continued data security and a thriving digital landscape in the years to come
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# 拡散に基づく二重生成再生による連続的オフライン強化学習

Continual Offline Reinforcement Learning via Diffusion-based Dual Generative Replay ( http://arxiv.org/abs/2404.10662v1 )

ライセンス: Link先を確認
Jinmei Liu, Wenbin Li, Xiangyu Yue, Shilin Zhang, Chunlin Chen, Zhi Wang, (参考訳) 連続的オフライン強化学習(Continuous offline reinforcement learning)は、前向きの転送を容易にし、連続的なオフラインタスクに取り組む破滅的な忘れを緩和する実践パラダイムである。 本稿では,生成した擬似データの同時再生により,過去の知識を保持できる2つの生成再生フレームワークを提案する。 まず、継続学習政策を拡散に基づく生成行動モデルと多頭部行動評価モデルに分離し、多様な行動の範囲を包含する分布表現性を継承する。 第2に,過去のタスクの状態分布を模倣するタスク条件拡散モデルを訓練する。 生成された状態は、動作生成器からの対応する応答と組み合わせて、高忠実度再生されたサンプルで古いタスクを表現する。 最後に, 疑似サンプルを新たなタスクの実際のものとインターリーブすることにより, 状態と行動生成器を継続的に更新し, 段階的に多様な振る舞いをモデル化し, 動作クローニングにより多面的批判を正則化し, 忘れを緩和する。 実験により, 提案手法は, より少ない精度で前向き転送を実現し, 試料空間の高忠実な再生により, 過去の地中構造データを用いた結果と密に近似できることを示した。 我々のコードは \href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO} で入手できる。

We study continual offline reinforcement learning, a practical paradigm that facilitates forward transfer and mitigates catastrophic forgetting to tackle sequential offline tasks. We propose a dual generative replay framework that retains previous knowledge by concurrent replay of generated pseudo-data. First, we decouple the continual learning policy into a diffusion-based generative behavior model and a multi-head action evaluation model, allowing the policy to inherit distributional expressivity for encompassing a progressive range of diverse behaviors. Second, we train a task-conditioned diffusion model to mimic state distributions of past tasks. Generated states are paired with corresponding responses from the behavior generator to represent old tasks with high-fidelity replayed samples. Finally, by interleaving pseudo samples with real ones of the new task, we continually update the state and behavior generators to model progressively diverse behaviors, and regularize the multi-head critic via behavior cloning to mitigate forgetting. Experiments demonstrate that our method achieves better forward transfer with less forgetting, and closely approximates the results of using previous ground-truth data due to its high-fidelity replay of the sample space. Our code is available at \href{https://github.com/NJU-RL/CuGRO}{https://github.com/NJU-RL/CuGRO}.
翻訳日:2024-04-17 16:24:42 公開日:2024-04-16
# CNNオートエンコーダによる画像分類作業への影響評価

Assessing The Impact of CNN Auto Encoder-Based Image Denoising on Image Classification Tasks ( http://arxiv.org/abs/2404.10664v1 )

ライセンス: Link先を確認
Mohsen Hami, Mahdi JameBozorg, (参考訳) 現実世界から撮影された画像は、しばしば異なる種類のノイズに影響され、コンピュータビジョンシステムの性能と視覚データの品質に大きな影響を与える。 本研究では, 鋳造品のノイズ画像における欠陥検出のための新しい手法を提案する。 この手法は、VGG16、InceptionV3などの深層学習モデルを空間領域と周波数領域の両方で利用し、ノイズタイプと欠陥状態を特定する。 研究プロセスは、前処理イメージから始まり、続いて特定のノイズカテゴリに合わせてデノナイジング技術を適用する。 ノイズ検出とデノナイズを分類パイプラインに統合することにより、欠陥検出の精度と堅牢性を高めることが目的である。 本研究は周波数領域のノイズタイプ分類にVGG16を用い,99%以上の精度を実現した。 塩とペッパーノイズの除去は平均87.9であり、ガウスノイズ除去は平均64.0であり、周期ノイズ除去は平均81.6である。 この包括的アプローチは、現実世界の産業アプリケーションにおいて、Deep AutoEncoderモデルとCentral Filterの有効性を示す。 最後に, 欠陥検出における二分法分類精度は, 従来法に比べて大幅に向上した。 VGG16分類器の精度は94.6%から97.0%に向上し、提案手法の有効性を示した。 同様に、InceptionV3分類器では、精度が84.7%から90.0%に向上し、さらにノイズ分析を分類パイプラインに統合する利点が検証された。

Images captured from the real world are often affected by different types of noise, which can significantly impact the performance of Computer Vision systems and the quality of visual data. This study presents a novel approach for defect detection in casting product noisy images, specifically focusing on submersible pump impellers. The methodology involves utilizing deep learning models such as VGG16, InceptionV3, and other models in both the spatial and frequency domains to identify noise types and defect status. The research process begins with preprocessing images, followed by applying denoising techniques tailored to specific noise categories. The goal is to enhance the accuracy and robustness of defect detection by integrating noise detection and denoising into the classification pipeline. The study achieved remarkable results using VGG16 for noise type classification in the frequency domain, achieving an accuracy of over 99%. Removal of salt and pepper noise resulted in an average SSIM of 87.9, while Gaussian noise removal had an average SSIM of 64.0, and periodic noise removal yielded an average SSIM of 81.6. This comprehensive approach showcases the effectiveness of the deep AutoEncoder model and median filter, for denoising strategies in real-world industrial applications. Finally, our study reports significant improvements in binary classification accuracy for defect detection compared to previous methods. For the VGG16 classifier, accuracy increased from 94.6% to 97.0%, demonstrating the effectiveness of the proposed noise detection and denoising approach. Similarly, for the InceptionV3 classifier, accuracy improved from 84.7% to 90.0%, further validating the benefits of integrating noise analysis into the classification pipeline.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# VASA-1: リアルタイムに生み出す音声駆動型音声通話システム

VASA-1: Lifelike Audio-Driven Talking Faces Generated in Real Time ( http://arxiv.org/abs/2404.10667v1 )

ライセンス: Link先を確認
Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong, Baining Guo, (参考訳) 静止画像と音声音声クリップを1つずつ与えることで,視覚的情緒的スキル(VAS)をアピールするライフライクな発話顔を生成するためのフレームワークであるVASAを紹介した。 我々のプレミアモデルであるVASA-1は、音声と精巧に同期した唇の動きを生成できるだけでなく、顔のニュアンスや自然な頭部の動きを捉え、真正性や活気の知覚に寄与する。 中心となるイノベーションは、顔潜伏空間で機能する全体論的顔力学と頭部運動生成モデル、そしてビデオを使った表現力のある非絡み合った顔潜伏空間の開発である。 提案手法は,新しい指標の集合に対する評価を含む広範囲な実験を通じて,様々な次元で従来手法よりも大幅に優れていたことを示す。 提案手法は,現実的な顔と頭部のダイナミックスで高画質の映像を提供するだけでなく,最大40FPSの512x512ビデオのオンライン生成をサポートする。 それは、人間の会話行動をエミュレートする、人生のようなアバターとのリアルタイムエンゲージメントの道を開く。

We introduce VASA, a framework for generating lifelike talking faces with appealing visual affective skills (VAS) given a single static image and a speech audio clip. Our premiere model, VASA-1, is capable of not only producing lip movements that are exquisitely synchronized with the audio, but also capturing a large spectrum of facial nuances and natural head motions that contribute to the perception of authenticity and liveliness. The core innovations include a holistic facial dynamics and head movement generation model that works in a face latent space, and the development of such an expressive and disentangled face latent space using videos. Through extensive experiments including evaluation on a set of new metrics, we show that our method significantly outperforms previous methods along various dimensions comprehensively. Our method not only delivers high video quality with realistic facial and head dynamics but also supports the online generation of 512x512 videos at up to 40 FPS with negligible starting latency. It paves the way for real-time engagements with lifelike avatars that emulate human conversational behaviors.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# LLMを使用したREST APIポストマンテストケースの自動化

Automating REST API Postman Test Cases Using LLM ( http://arxiv.org/abs/2404.10678v1 )

ライセンス: Link先を確認
S Deepika Sri, Mohammed Aadil S, Sanjjushri Varshini R, Raja CSP Raman, Gopinath Rajagopal, S Taranath Chan, (参考訳) 現代の技術進歩の状況において、手動プロセスの自動化は極めて重要であり、機械を効果的に訓練し、テストするための巨大なデータセットの需要を惹きつける。 本稿では,大規模言語モデルを用いたテストケースの自動生成手法の探索と実装について述べる。 この方法論は、大規模言語モデルのトレーニングと評価のためのテストケース生成の効率性と有効性を高めるために、Open AIの使用を統合する。 LLMによるこの形式化されたアプローチは、テストプロセスを単純化し、より効率的で包括的なものにします。 自然言語理解を活用することで、LLMは幅広いREST APIプロパティをカバーするテストケースをインテリジェントに定式化し、包括的なテストを保証する。 この研究で開発されたモデルは、手作業で収集したポストマンテストケースやさまざまなRest APIのインスタンスを使ってトレーニングされている。 LLMは、さまざまな複雑なテストシナリオの生成を自動化することで、Postmanテストケースの作成を強化する。 Postmanのテストケースは、合理化された自動化、コラボレーション、動的データハンドリングを提供し、従来のテストケースと比較して、APIテストに対するユーザフレンドリで効率的なアプローチを提供する。 したがって、このモデルは現在の技術標準に適合するだけでなく、将来の技術進歩において重要な概念へと進化するという約束も持っている。

In the contemporary landscape of technological advancements, the automation of manual processes is crucial, compelling the demand for huge datasets to effectively train and test machines. This research paper is dedicated to the exploration and implementation of an automated approach to generate test cases specifically using Large Language Models. The methodology integrates the use of Open AI to enhance the efficiency and effectiveness of test case generation for training and evaluating Large Language Models. This formalized approach with LLMs simplifies the testing process, making it more efficient and comprehensive. Leveraging natural language understanding, LLMs can intelligently formulate test cases that cover a broad range of REST API properties, ensuring comprehensive testing. The model that is developed during the research is trained using manually collected postman test cases or instances for various Rest APIs. LLMs enhance the creation of Postman test cases by automating the generation of varied and intricate test scenarios. Postman test cases offer streamlined automation, collaboration, and dynamic data handling, providing a user-friendly and efficient approach to API testing compared to traditional test cases. Thus, the model developed not only conforms to current technological standards but also holds the promise of evolving into an idea of substantial importance in future technological advancements.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# HSVIによるニューラルパーセプション機構を持つ部分観測可能な確率ゲームのためのオンラインミニマックス戦略

HSVI-based Online Minimax Strategies for Partially Observable Stochastic Games with Neural Perception Mechanisms ( http://arxiv.org/abs/2404.10679v1 )

ライセンス: Link先を確認
Rui Yan, Gabriel Santos, Gethin Norman, David Parker, Marta Kwiatkowska, (参考訳) 本稿では,ニューラル認知機構と非対称情報構造を備えた連続状態部分可観測確率ゲームについて考察する。 1つのエージェントは部分的な情報を持ち、観察機能はニューラルネットワークとして実装され、もう1つのエージェントは状態に関する完全な知識を持っていると仮定される。 提案手法は,各エージェントごとに1つの線形プログラムを解く必要のある,$\varepsilon$-minimax戦略プロファイルを計算するための効率的なオンライン手法を初めて提示する。 部分的インフォームドエージェントに対しては,対向する反事実値ではなく,従属的探索値反復 (HSVI) で事前計算した下界を用いた連続解法を提案する。 このことは、境界を事前計算するコストで連続的な解決の健全性を継承する。 本手法では,エージェントがHSVIの上限(オフライン)に基づく部分的インフォームドエージェントの信念を推論し,両エージェントが知っている初期信念におけるゲームの価値を$$\varepsilon$-distanceで保証する。

We consider a variant of continuous-state partially-observable stochastic games with neural perception mechanisms and an asymmetric information structure. One agent has partial information, with the observation function implemented as a neural network, while the other agent is assumed to have full knowledge of the state. We present, for the first time, an efficient online method to compute an $\varepsilon$-minimax strategy profile, which requires only one linear program to be solved for each agent at every stage, instead of a complex estimation of opponent counterfactual values. For the partially-informed agent, we propose a continual resolving approach which uses lower bounds, pre-computed offline with heuristic search value iteration (HSVI), instead of opponent counterfactual values. This inherits the soundness of continual resolving at the cost of pre-computing the bound. For the fully-informed agent, we propose an inferred-belief strategy, where the agent maintains an inferred belief about the belief of the partially-informed agent based on (offline) upper bounds from HSVI, guaranteeing $\varepsilon$-distance to the value of the game at the initial belief known to both agents.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# 分子アンサンブルに対するTavis-Cummingsモデルの拡張 -- 双極子自己エネルギーと静的双極子モーメントの効果を探る

Extending the Tavis-Cummings model for molecular ensembles -- Exploring the effects of dipole self energies and static dipole moments ( http://arxiv.org/abs/2404.10680v1 )

ライセンス: Link先を確認
Lucas Borges, Thomas Schnappinger, Markus Kowalewski, (参考訳) 有機分子とナノスケールキャビティの真空場との強いカップリングは、それらの化学的および物理的性質を変更するために用いられる。 分子アンサンブルに対するTavis-Cummingsモデルを拡張し、静的双極子モーメントと双極子自己エネルギーから生じるしばしば無視される相互作用項が、偏光化学における光-物質相互作用の正確な記述に不可欠であることを示す。 完全な量子記述に基づいて、光空洞に共鳴結合したMgH$^+$分子の励起状態ダイナミクスと分光をシミュレートする。 静的双極子モーメントと双極子自己エネルギーの包含は、一貫したモデルを得るのに必要であることを示す。 実分子系の主要な特徴を再現し,より大規模な分子アンサンブルをシミュレートする,効率的な2レベルシステムアプローチを構築した。

Strong coupling of organic molecules to the vacuum field of a nanoscale cavity can be used to modify their chemical and physical properties. We extend the Tavis-Cummings model for molecular ensembles and show that the often neglected interaction terms arising from the static dipole moment and the dipole self-energy are essential for a correct description of the light-matter interaction in polaritonic chemistry. On the basis of a full quantum description, we simulate the excited-state dynamics and spectroscopy of MgH$^+$ molecules resonantly coupled to an optical cavity. We show that the inclusion of static dipole moments and the dipole self-energy is necessary to obtain a consistent model. We construct an efficient two-level system approach that reproduces the main features of the real molecular system and may be used to simulate larger molecular ensembles.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# StyleCity: プログレッシブ最適化による視覚・テキスト参照による大規模3次元都市景観のスタイリング

StyleCity: Large-Scale 3D Urban Scenes Stylization with Vision-and-Text Reference via Progressive Optimization ( http://arxiv.org/abs/2404.10681v1 )

ライセンス: Link先を確認
Yingshu Chen, Huajian Huang, Tuan-Anh Vu, Ka Chun Shum, Sai-Kit Yeung, (参考訳) さまざまなスタイルで大規模な仮想都市シーンを作ることは、本質的に困難である。 仮想制作のプロトタイプを容易にし,複雑な材料や照明設備の必要を回避すべく,大規模な都市シーンを対象とした視覚・テキスト駆動型テクスチャスタイリングシステムであるStyleCityを紹介した。 画像とテキストを参照として、StyleCityは、大都市シーンの3次元テクスチャメッシュを意味論的に認識し、調和した全方位空背景を生成する。 そこで我々は,2次元の視覚とテクスチャをグローバルかつ局所的に3Dに転送することで,ニューラルネットワークのテクスチャフィールドをスタイリングすることを提案する。 3Dスタイリングでは,高品質なシーンコンテンツを保存するために,入力された3Dシーンのトレーニングビューを異なるレベルに段階的に拡大する。 次に、トレーニングビューのスケールにスタイルイメージのスケールを適用することで、世界規模でシーンスタイルを最適化する。 さらに,写真リアリスティックなスタイリゼーションに不可欠なセマンティクス・アウェアスタイルの損失によって,局所的なセマンティクスの整合性を向上させる。 テクスチャのスタイリゼーションに加えて,より没入的な雰囲気を提供し,セマンティックなスタイリゼーションプロセスを支援する,スタイルに一貫性のある全方位スカイイメージを合成するための生成拡散モデルも導入する。 スタイリングされたニューラルテクスチャフィールドを任意の解像度のテクスチャに焼き込むことができ、従来のレンダリングパイプラインへのシームレスな統合を可能にし、仮想生産プロトタイピングプロセスを大幅に緩和することができる。 大規模な実験は、質的で定量的なパフォーマンスとユーザの嗜好において、スタイリングされたシーンの優越性を実証する。

Creating large-scale virtual urban scenes with variant styles is inherently challenging. To facilitate prototypes of virtual production and bypass the need for complex materials and lighting setups, we introduce the first vision-and-text-driven texture stylization system for large-scale urban scenes, StyleCity. Taking an image and text as references, StyleCity stylizes a 3D textured mesh of a large-scale urban scene in a semantics-aware fashion and generates a harmonic omnidirectional sky background. To achieve that, we propose to stylize a neural texture field by transferring 2D vision-and-text priors to 3D globally and locally. During 3D stylization, we progressively scale the planned training views of the input 3D scene at different levels in order to preserve high-quality scene content. We then optimize the scene style globally by adapting the scale of the style image with the scale of the training views. Moreover, we enhance local semantics consistency by the semantics-aware style loss which is crucial for photo-realistic stylization. Besides texture stylization, we further adopt a generative diffusion model to synthesize a style-consistent omnidirectional sky image, which offers a more immersive atmosphere and assists the semantic stylization process. The stylized neural texture field can be baked into an arbitrary-resolution texture, enabling seamless integration into conventional rendering pipelines and significantly easing the virtual production prototyping process. Extensive experiments demonstrate our stylized scenes' superiority in qualitative and quantitative performance and user preferences.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# 自発パラメトリックダウン変換に基づく単一光子源の多重モード特性のキャラクタリゼーション

Characterization of the multimode nature of single-photon sources based on spontaneous parametric down conversion ( http://arxiv.org/abs/2404.10682v1 )

ライセンス: Link先を確認
Emil R. Hellebek, Klaus Mølmer, Anders S. Sørensen, (参考訳) 単一光子源は多くの将来的な量子技術に必要な成分である。 単一光子源の候補の1つは、自発パラメトリックダウン変換と隠蔽光子検出の組み合わせである。 このような光源から放射される光パルスは、通常は単一モードとして扱われるが、この処理は不完全である。 ダウン変換過程のボゴリューボフの正確な処理に基づいて, 完全なマルチモード記述を開発する。 次に,本研究は,光子の正確な検出時間に依存することなく,かつ検出前後の狭い窓にのみ光子を受容した場合に,最も重要な物理的メカニズムを示し,単一光子の状態の成功確率と純度を解析的に推定することができる摂動的かつ効果的な治療方法を提案する。 これにより、ポンプパルスの3つの異なる仮定の下で発光された光を特徴付けることができる。 超短パルスによる自然パラメトリックダウン変換では、単モード記述が正確であるのに対して、長いポンプパルスと連続ポンプでは多重モード記述が必要である。 本研究の成果は,マルチモード特性に依存した単一光子源に基づく量子情報プロトコルの設計を導くのに有用である。

Single-photon sources are necessary components for many prospective quantum technologies. One candidate for a single-photon source is spontaneous parametric down conversion combined with a heralding photon detection. The heralded light pulse from such a source, is typically treated as single-mode, this treatment, however, is incomplete. We develop a full multimode description based on the exact Bogoliubov treatment of the down conversion process. We then provide a perturbative and effective treatment, which illustrates the most important physical mechanisms and permits analytical estimates of the success probability and purity of single-photon states under practical heralding conditions, both without relying on the precise detection time of the heralding photon and when accepting photons only in a narrow window around the time of the detection. This permits us to characterize the emitted light under three different assumptions for the pump pulse. For spontaneous parametric down conversion with a very short pump pulse, we find the single-mode description to be accurate, while for longer pump pulses and continuous pumping, a multimode description is necessary. Our findings can be used to guide the design of quantum information protocols based on heralded single-photon sources, as their performance may depend on the multimode nature of the sources.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# 強化学習におけるポートフォリオ配置制約の簡易解法

Simplex Decomposition for Portfolio Allocation Constraints in Reinforcement Learning ( http://arxiv.org/abs/2404.10683v1 )

ライセンス: Link先を確認
David Winkel, Niklas Strauß, Matthias Schubert, Thomas Seidl, (参考訳) ポートフォリオ最適化タスクは、投資家の富が一連の資産に分散するシーケンシャルな決定問題を記述します。 割り当て制限は、環境問題によるポートフォリオの特定のセクターへの露出を制限するなどの目的のために、資産の特定のサブセットに対する最小限または最大限の投資を強制するために使用される。 制約強化学習(CRL)の手法は、割り当て制約を考慮しながらポリシーを最適化することができるが、これらの一般的な手法が準最適結果をもたらすことが観察できる。 本稿では,制約作用空間を非制約の割り当て問題に分解した上で,アロケーション制約に対処する新しい手法を提案する。 特に,2つの制約の場合のこのアプローチについて検討する。 例えば、投資家は、化石エネルギーセクターへの投資を制限しながら、ポートフォリオの少なくとも一部をグリーンテクノロジーに投資したいと考えるかもしれない。 タスクのアクション空間は分解されたアクション空間と等価であることを示し、分解の上に構築された新しい強化学習(RL)アプローチCAOSDを導入する。 実世界のNasdaq-100データに対する実験的評価は,ポートフォリオ最適化のための最先端CRLベンチマークを一貫して上回っていることを示す。

Portfolio optimization tasks describe sequential decision problems in which the investor's wealth is distributed across a set of assets. Allocation constraints are used to enforce minimal or maximal investments into particular subsets of assets to control for objectives such as limiting the portfolio's exposure to a certain sector due to environmental concerns. Although methods for constrained Reinforcement Learning (CRL) can optimize policies while considering allocation constraints, it can be observed that these general methods yield suboptimal results. In this paper, we propose a novel approach to handle allocation constraints based on a decomposition of the constraint action space into a set of unconstrained allocation problems. In particular, we examine this approach for the case of two constraints. For example, an investor may wish to invest at least a certain percentage of the portfolio into green technologies while limiting the investment in the fossil energy sector. We show that the action space of the task is equivalent to the decomposed action space, and introduce a new reinforcement learning (RL) approach CAOSD, which is built on top of the decomposition. The experimental evaluation on real-world Nasdaq-100 data demonstrates that our approach consistently outperforms state-of-the-art CRL benchmarks for portfolio optimization.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# ランダムに活性化されたニューラルネットワークを用いたスマートライドシェアリングプラットフォームにおけるドライバ疲労予測

Driver Fatigue Prediction using Randomly Activated Neural Networks for Smart Ridesharing Platforms ( http://arxiv.org/abs/2404.10684v1 )

ライセンス: Link先を確認
Sree Pooja Akula, Mukund Telukunta, Venkata Sriram Siddhardh Nadendla, (参考訳) ライドシェアリングプラットフォームのドライバーは、その日のライドオファーを受け入れることで認知的萎縮と疲労を示し、ライドシェアリングプラットフォームの全体的な効率に大きな影響を与える可能性がある。 本論文は,運転者の選択のモデル化と学習に主眼を置いている現状の文献とは対照的に,所定のシフト中に運転者のシーケンシャルな乗務決定をモデル化し,予測するための,新しいDDS (Dynamic Discounted Satisficing) ヒューリスティックを提案する。 DDSヒューリスティックに基づいて、ランダムなアクティベーションを持つ新しい確率的ニューラルネットワークが提案され、DDSヒューリスティックをモデル化し、与えられたドライバーによる最終的な決定を予測する。 ネットワーク内のランダムなアクティベーションの存在は、SBPTT(Samping-Based Back Propagation Through Time)と呼ばれる新しいトレーニングアルゴリズムの開発を必要とした。 本報告では,シカゴのタクシーのシミュレーション実験と実際のタクシーデータを用いて,最先端手法と比較して,提案手法の性能向上を実証する。

Drivers in ridesharing platforms exhibit cognitive atrophy and fatigue as they accept ride offers along the day, which can have a significant impact on the overall efficiency of the ridesharing platform. In contrast to the current literature which focuses primarily on modeling and learning driver's preferences across different ride offers, this paper proposes a novel Dynamic Discounted Satisficing (DDS) heuristic to model and predict driver's sequential ride decisions during a given shift. Based on DDS heuristic, a novel stochastic neural network with random activations is proposed to model DDS heuristic and predict the final decision made by a given driver. The presence of random activations in the network necessitated the development of a novel training algorithm called Sampling-Based Back Propagation Through Time (SBPTT), where gradients are computed for independent instances of neural networks (obtained via sampling the distribution of activation threshold) and aggregated to update the network parameters. Using both simulation experiments as well as on real Chicago taxi dataset, this paper demonstrates the improved performance of the proposed approach, when compared to state-of-the-art methods.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# テキスト制御によるシーンにおけるヒューマンインタラクション動作の生成

Generating Human Interaction Motions in Scenes with Text Control ( http://arxiv.org/abs/2404.10685v1 )

ライセンス: Link先を確認
Hongwei Yi, Justus Thies, Michael J. Black, Xue Bin Peng, Davis Rempe, (参考訳) 本稿では,デノナイズ拡散モデルに基づくテキスト制御されたシーン認識動作生成手法TeSMoを提案する。 これまでは、動き、テキスト記述、インタラクティブなシーンを含むデータセットが限られていたため、シーンを考慮せずに、文字を個別にフォーカスしていた。 我々のアプローチは、大規模モーションキャプチャーデータセットにおける目標達成制約を強調する、シーン非依存のテキスト-モーション拡散モデルの事前学習から始まります。 次に,このモデルを,地平面や物体形状などの詳細なシーン情報を含むデータを付加したデータを用いて微調整したシーン認識コンポーネントで拡張する。 トレーニングを容易にするため,シーン内に注釈付きナビゲーションと対話動作を組み込む。 提案手法は, 物体形状, 向き, 初期位置, ポーズの異なる場面で, ナビゲーションや座位などの現実的かつ多様な人間と物体の相互作用を再現する。 大規模な実験により,本手法は人間とシーンの相互作用の妥当性,および生成した動きのリアリズムや多様性の観点から,従来の手法を超越していることが示された。 コードはhttps://research.nvidia.com/labs/toronto-ai/tesmoで公開される。

We present TeSMo, a method for text-controlled scene-aware motion generation based on denoising diffusion models. Previous text-to-motion methods focus on characters in isolation without considering scenes due to the limited availability of datasets that include motion, text descriptions, and interactive scenes. Our approach begins with pre-training a scene-agnostic text-to-motion diffusion model, emphasizing goal-reaching constraints on large-scale motion-capture datasets. We then enhance this model with a scene-aware component, fine-tuned using data augmented with detailed scene information, including ground plane and object shapes. To facilitate training, we embed annotated navigation and interaction motions within scenes. The proposed method produces realistic and diverse human-object interactions, such as navigation and sitting, in different scenes with various object shapes, orientations, initial body positions, and poses. Extensive experiments demonstrate that our approach surpasses prior techniques in terms of the plausibility of human-scene interactions, as well as the realism and variety of the generated motions. Code will be released upon publication of this work at https://research.nvidia.com/labs/toronto-ai/tesmo.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# 画像超解像のための確率フローサンプリングによる効率的な条件拡散モデル

Efficient Conditional Diffusion Model with Probability Flow Sampling for Image Super-resolution ( http://arxiv.org/abs/2404.10688v1 )

ライセンス: Link先を確認
Yutao Yuan, Chun Yuan, (参考訳) 画像超解像は、1つの低解像度画像に対して複数の有効な高解像度画像が存在するため、根本的な問題である。 拡散確率モデルに基づく超解像法は、低解像度画像に条件付けられた高解像度画像の分布を学習することで、PSNR指向の方法でのぼやけた画像の問題を回避し、不適切な性質に対処することができる。 しかし, 既存の拡散型超解像法では, 反復サンプリングを用いることで高消費電力化が可能であり, カラーシフトなどの問題により, 生成画像の品質と一貫性は理想的ではない。 本稿では,画像超解像のための確率フローサンプリング(ECDP)を用いた効率的な条件拡散モデルを提案する。 時間消費を削減するため,画像超解像のための連続時間条件拡散モデルの設計を行った。 さらに、生成した画像の整合性を改善するために、データ予測パラメトリゼーションとノイズ予測パラメトリゼーションを補間するデノイザネットワークのハイブリッドパラメトリゼーションを提案する。 さらに、拡散モデルのスコアマッチング損失を補完する画像品質損失を設計し、さらに超解像の一貫性と品質を改善した。 DIV2K, ImageNet, CelebAの広汎な実験により, 従来の拡散型画像超解像法よりも高画質化を実現し, 時間消費の低減が図られた。 私たちのコードはhttps://github.com/Yuan-Yutao/ECDP.comで公開されています。

Image super-resolution is a fundamentally ill-posed problem because multiple valid high-resolution images exist for one low-resolution image. Super-resolution methods based on diffusion probabilistic models can deal with the ill-posed nature by learning the distribution of high-resolution images conditioned on low-resolution images, avoiding the problem of blurry images in PSNR-oriented methods. However, existing diffusion-based super-resolution methods have high time consumption with the use of iterative sampling, while the quality and consistency of generated images are less than ideal due to problems like color shifting. In this paper, we propose Efficient Conditional Diffusion Model with Probability Flow Sampling (ECDP) for image super-resolution. To reduce the time consumption, we design a continuous-time conditional diffusion model for image super-resolution, which enables the use of probability flow sampling for efficient generation. Additionally, to improve the consistency of generated images, we propose a hybrid parametrization for the denoiser network, which interpolates between the data-predicting parametrization and the noise-predicting parametrization for different noise scales. Moreover, we design an image quality loss as a complement to the score matching loss of diffusion models, further improving the consistency and quality of super-resolution. Extensive experiments on DIV2K, ImageNet, and CelebA demonstrate that our method achieves higher super-resolution quality than existing diffusion-based image super-resolution methods while having lower time consumption. Our code is available at https://github.com/Yuan-Yutao/ECDP.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# X線に基づく科学応用のネットワークアーキテクチャ探索

Network architecture search of X-ray based scientific applications ( http://arxiv.org/abs/2404.10689v1 )

ライセンス: Link先を確認
Adarsha Balaji, Ramyad Hadidi, Gregory Kollmer, Mohammed E. Fouda, Prasanna Balaprakash, (参考訳) X線および電子回折に基づく顕微鏡は、ブラッグピーク検出とポチグラフィーを用いて原子分解能で3Dイメージングを行う。 通常、これらの手法は、Psuedo-Voigt関数や複雑な逆問題の解法のような計算的に複雑なタスクを用いて実装される。 近年、ディープニューラルネットワークの使用により、既存の最先端アプローチが改善されている。 しかし、ニューラルネットワークモデルの設計と開発は、アプリケーションの専門家による時間と労働集約的なチューニングに依存している。 そこで我々は,モデルサイズ,エネルギー消費,スループットのためのニューラルネットワークモデルの設計と最適化を自動化するために,ハイパーパラメータ (HPS) とニューラルアーキテクチャサーチ (NAS) アプローチを提案する。 手作業によるBraggNNとPtychoNNベンチマークと比較して,自動チューニングモデルの性能向上を示す。 本研究は,ブラッグピーク検出と画像再構成の性能を高めるために,調整可能なハイパーパラメータの探索空間について検討し,その重要性を実証するものである。 1)BraggNNのNASとHPSは,モデルサイズを87.57.%削減したブラッグピーク検出精度を31.03.%改善し,(2)PtychoNNはモデル精度を16.77.%改善し,ベースラインのPtychoNNモデルと比較してモデルサイズを12.82.%削減した。 Orin-AGXプラットフォーム上で推定された場合、最適化されたBraggnnとPtychonnモデルでは、推論遅延の10.51\%と9.47\%の削減と、Orin-AGXエッジプラットフォームで推定された各ベースラインと比較して44.18\%と15.34\%のエネルギー消費の削減が示されている。

X-ray and electron diffraction-based microscopy use bragg peak detection and ptychography to perform 3-D imaging at an atomic resolution. Typically, these techniques are implemented using computationally complex tasks such as a Psuedo-Voigt function or solving a complex inverse problem. Recently, the use of deep neural networks has improved the existing state-of-the-art approaches. However, the design and development of the neural network models depends on time and labor intensive tuning of the model by application experts. To that end, we propose a hyperparameter (HPS) and neural architecture search (NAS) approach to automate the design and optimization of the neural network models for model size, energy consumption and throughput. We demonstrate the improved performance of the auto-tuned models when compared to the manually tuned BraggNN and PtychoNN benchmark. We study and demonstrate the importance of the exploring the search space of tunable hyperparameters in enhancing the performance of bragg peak detection and ptychographic reconstruction. Our NAS and HPS of (1) BraggNN achieves a 31.03\% improvement in bragg peak detection accuracy with a 87.57\% reduction in model size, and (2) PtychoNN achieves a 16.77\% improvement in model accuracy and a 12.82\% reduction in model size when compared to the baseline PtychoNN model. When inferred on the Orin-AGX platform, the optimized Braggnn and Ptychonn models demonstrate a 10.51\% and 9.47\% reduction in inference latency and a 44.18\% and 15.34\% reduction in energy consumption when compared to their respective baselines, when inferred in the Orin-AGX edge platform.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# MathWriting: 手書きの数学的表現認識のためのデータセット

MathWriting: A Dataset For Handwritten Mathematical Expression Recognition ( http://arxiv.org/abs/2404.10690v1 )

ライセンス: Link先を確認
Philippe Gervais, Asya Fadeeva, Andrii Maksai, (参考訳) これまでで最大のオンライン手書き数式データセットであるMathWritingを紹介した。 230kの人書きサンプルと、さらに400kの合成サンプルで構成されている。 MathWritingはオフラインのHME認識にも使用することができ、IM2LATEX-100Kのような既存のすべてのオフラインHMEデータセットよりも大きい。 オンラインとオフラインの両方のHME認識の研究を進めるために,MathWritingデータに基づくベンチマークを導入する。

We introduce MathWriting, the largest online handwritten mathematical expression dataset to date. It consists of 230k human-written samples and an additional 400k synthetic ones. MathWriting can also be used for offline HME recognition and is larger than all existing offline HME datasets like IM2LATEX-100K. We introduce a benchmark based on MathWriting data in order to advance research on both online and offline HME recognition.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# 電力系統における混合整数最適化のためのハイブリッド量子古典アルゴリズム

A hybrid Quantum-Classical Algorithm for Mixed-Integer Optimization in Power Systems ( http://arxiv.org/abs/2404.10693v1 )

ライセンス: Link先を確認
Petros Ellinas, Samuel Chevalier, Spyros Chatzivasileiadis, (参考訳) 混合整数線形計画法(MILP)は、ユニットコミットや最適伝送スイッチングからニューラルネットワークの検証まで幅広い応用スペクトルを持つ、現代の電力系統最適化プロセスのバックボーンと見なすことができる。 これらの定式化の主な問題は、NP-Hard問題と考えられる解アルゴリズムの計算複雑性である。 量子コンピューティングは、これらの問題によって課される計算負担を軽減するための潜在的ソリューションとしてテストされ、有望な結果を提供し、MILPの解の高速化に利用することができる。 本稿では,数式ツールとQCのサンプリング機能を活用して高速化されたソリューションを提供する量子コンピュータ(QC)を用いて,電力系統最適化問題を解決するための一般的なフレームワークを提案する。 我々の指導的応用は、DC Optimal Power Flowを解くために訓練されたニューラルネットワークの最適送信切替と検証である。 具体的には、Benders Decomposition の高速化版を用いて、与えられたMILPを整数マスター問題と線形サブプロブレムに分割し、「量子古典」のハイブリッドアプローチで解き、両方の世界を最大限に活用する。 2つのユースケースを提供し,他の古典的およびハイブリッドな手法に対して開発したフレームワークをベンチマークし,電力系統混合整数最適化問題に対するハイブリッド量子古典アルゴリズムの機会と課題を実証する。

Mixed Integer Linear Programming (MILP) can be considered the backbone of the modern power system optimization process, with a large application spectrum, from Unit Commitment and Optimal Transmission Switching to verifying Neural Networks for power system applications. The main issue of these formulations is the computational complexity of the solution algorithms, as they are considered NP-Hard problems. Quantum computing has been tested as a potential solution towards reducing the computational burden imposed by these problems, providing promising results, motivating the can be used to speedup the solution of MILPs. In this work, we present a general framework for solving power system optimization problems with a Quantum Computer (QC), which leverages mathematical tools and QCs' sampling ability to provide accelerated solutions. Our guiding applications are the optimal transmission switching and the verification of neural networks trained to solve a DC Optimal Power Flow. Specifically, using an accelerated version of Benders Decomposition , we split a given MILP into an Integer Master Problem and a linear Subproblem and solve it through a hybrid ``quantum-classical'' approach, getting the best of both worlds. We provide 2 use cases, and benchmark the developed framework against other classical and hybrid methodologies, to demonstrate the opportunities and challenges of hybrid quantum-classical algorithms for power system mixed integer optimization problems.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# 化学領域のコア推論とブリッジ分解能向上のための知識基盤の統合

Integrating knowledge bases to improve coreference and bridging resolution for the chemical domain ( http://arxiv.org/abs/2404.10696v1 )

ライセンス: Link先を確認
Pengcheng Lu, Massimo Poesio, (参考訳) 化学ドメインの知識が極めて重要である正確な化学プロセスを理解するためには、化学特許のコア推論とブリッジング関係の解決が重要である。 化学領域におけるコア推論とブリッジ分解能の両面から,外部知識をマルチタスク学習モデルに組み込んだアプローチを提案する。 その結果,外部知識の統合は,化学コア推論とブリッジ分解能の両立に有効であることが示唆された。

Resolving coreference and bridging relations in chemical patents is important for better understanding the precise chemical process, where chemical domain knowledge is very critical. We proposed an approach incorporating external knowledge into a multi-task learning model for both coreference and bridging resolution in the chemical domain. The results show that integrating external knowledge can benefit both chemical coreference and bridging resolution.
翻訳日:2024-04-17 16:14:57 公開日:2024-04-16
# 物理現実の要素としての2時間量

Two-time quantities as elements of physical reality ( http://arxiv.org/abs/2404.10697v1 )

ライセンス: Link先を確認
Lucas Maquedano, Alexandre D. Ribeiro, Ana C. S. Costa, Renato M. Angelo, (参考訳) 近年では,特に非古典的相関の識別子の下で,時間相関が注目されている。 しかし、これらの対象の物理的解釈は、より一般的にはマルチ時間変数であり、あいまいなままであり、それらが測ることが難しい理由の1つかもしれない。 本研究は,2回共振器を新しい物理オブザーバブルを包含する平均値と見なすべきであり,プリミティブの観点では言い換えられないという視点を量子原理により導入・推進するものである。 特に,2時間相関器と提案した2時間演算子自体の仮定成分が,物理現実の同時的要素にはならないことを示す例を示す。

In recent years, time correlators have received renewed attention, especially under the guise of identifiers of nonclassical correlations. However, the physical interpretation of these objects, and more generally of multi-times variables, remains ambiguous, which may be one of the reasons why they are so difficult to measure. In this work, we introduce and advance the perspective that a two-time correlator should actually be regarded as an average involving a novel single physical observable, one that cannot be rephrased in terms of the primitive ones, according to quantum principles. In particular, we provide examples showing that the presumed constituents of a two-time correlator and the proposed two-time operator itself cannot be simultaneous elements of the physical reality.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# ECLAIR: セマンティックセグメンテーションのための高忠実な空中LiDARデータセット

ECLAIR: A High-Fidelity Aerial LiDAR Dataset for Semantic Segmentation ( http://arxiv.org/abs/2404.10699v1 )

ライセンス: Link先を確認
Iaroslav Melekhov, Anand Umashankar, Hyeong-Jin Kim, Vladislav Serkov, Dusty Argyle, (参考訳) ECLAIR (Extended Classification of Lidar for AI Recognition) は、ポイントクラウドセマンティックセマンティックセグメンテーションの研究を進めるために設計された、屋外の大規模LiDARデータセットである。 このデータセットは、これまでで最も広く多様な種類のコレクションであり、総面積が10$km^2$で6億点近くあり、11の異なる対象カテゴリが特徴である。 データセットの品質と有用性を保証するため、私たちは専門家の社内チームを通じてポイントラベルを徹底的にキュレートし、セマンティックラベリングの正確性と一貫性を確保しました。 このデータセットは、3D都市モデリング、シーン理解、ユーティリティインフラストラクチャ管理の分野を、新たな課題と潜在的な応用を提示することによって前進させるよう設計されている。 ベンチマークとして,ミンコフスキーエンジンに基づくボクセルベースの点雲セグメンテーション手法の質的,定量的解析を行った。

We introduce ECLAIR (Extended Classification of Lidar for AI Recognition), a new outdoor large-scale aerial LiDAR dataset designed specifically for advancing research in point cloud semantic segmentation. As the most extensive and diverse collection of its kind to date, the dataset covers a total area of 10$km^2$ with close to 600 million points and features eleven distinct object categories. To guarantee the dataset's quality and utility, we have thoroughly curated the point labels through an internal team of experts, ensuring accuracy and consistency in semantic labeling. The dataset is engineered to move forward the fields of 3D urban modeling, scene understanding, and utility infrastructure management by presenting new challenges and potential applications. As a benchmark, we report qualitative and quantitative analysis of a voxel-based point cloud segmentation approach based on the Minkowski Engine.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# Rawformer:学習可能なカメラISPのための未完成のRaw-to-Raw翻訳

Rawformer: Unpaired Raw-to-Raw Translation for Learnable Camera ISPs ( http://arxiv.org/abs/2404.10700v1 )

ライセンス: Link先を確認
Georgy Perevozchikov, Nancy Mehta, Mahmoud Afifi, Radu Timofte, (参考訳) 現代のスマートフォンカメラの品質は、キャプチャされた生画像を強化するために、画像信号プロセッサ(ISP)に大きく依存しており、標準色空間(sRGBなど)で符号化された最終的な出力画像を生成するために、慎重に設計されたモジュールを活用している。 ニューラルベースのエンド・ツー・エンドの学習可能なISPは有望な進歩を提供し、従来のISPを新しいカメラモデルごとに広範囲のチューニングを必要とすることなく、適応できる能力に置き換える可能性がある。 しかし、近年の学習ベースISPの課題は、固有のカメラ特性が入力原画像形成に与える影響から、個々のカメラモデルごとに大きなペアデータセットを収集することである。 本稿では,多種多様なカメラを用いた生と生の翻訳を未経験で学習する手法を導入することで,この問題に対処する。 具体的には、生から生への翻訳のための教師なしトランスフォーマーベースのエンコーダデコーダであるRawformerを提案する。 特定のカメラが捉えた生画像をターゲットカメラに正確にマッピングし、学習可能なISPを新しい目に見えないカメラに一般化する。 提案手法は,従来の最先端技術と比較して精度が高く,オリジナル画像と翻訳画像との相関性も高いことを示す。

Modern smartphone camera quality heavily relies on the image signal processor (ISP) to enhance captured raw images, utilizing carefully designed modules to produce final output images encoded in a standard color space (e.g., sRGB). Neural-based end-to-end learnable ISPs offer promising advancements, potentially replacing traditional ISPs with their ability to adapt without requiring extensive tuning for each new camera model, as is often the case for nearly every module in traditional ISPs. However, the key challenge with the recent learning-based ISPs is the urge to collect large paired datasets for each distinct camera model due to the influence of intrinsic camera characteristics on the formation of input raw images. This paper tackles this challenge by introducing a novel method for unpaired learning of raw-to-raw translation across diverse cameras. Specifically, we propose Rawformer, an unsupervised Transformer-based encoder-decoder method for raw-to-raw translation. It accurately maps raw images captured by a certain camera to the target camera, facilitating the generalization of learnable ISPs to new unseen cameras. Our method demonstrates superior performance on real camera datasets, achieving higher accuracy compared to previous state-of-the-art techniques, and preserving a more robust correlation between the original and translated raw images.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# コードレビュー活動予測に関する実証的研究

An empirical study on code review activity prediction in practice ( http://arxiv.org/abs/2404.10703v1 )

ライセンス: Link先を確認
Doriane Olewicki, Sarra Habchi, Bram Adams, (参考訳) コードレビューの間、ソフトウェア品質の保証において重要なステップである、レビュー担当者は、コードの変更を理解して評価し、品質を検証し、コードベースに欠陥を導入しないようにする難しいタスクを持っています。 これは退屈なプロセスであり、必要な労力は提出されたコードや著者やレビュアーの経験に大きく依存する。 29名の専門家による最初のユーザスタディにより、レビュー環境内のパッチによって変更されたファイルの並べ替えは、より多くのコメントが書かれ(+23%)、参加者のファイルレベルのホットスポット精度が53%(+13%)と28%(+8%)に増加し、レビュー品質が向上する可能性が示唆された。 そこで本論文は,(1)コメント,(2)改訂,(3)ホットスポット(補足,あるいは改訂)のどのファイルが必要かを予測することで,コードレビュアを支援することを目的とする。 これらのタスクを予測するために,2種類のテキスト埋め込み(単語のバグ・オブ・ワードと大言語モデルエンコーディング)とプロセス機能(コードサイズベースと履歴ベース)を評価した。 3つのオープンソースと2つの産業データセットに関する実証的研究は、コード埋め込みとレビュープロセスの機能を組み合わせることで、最先端のアプローチよりも優れた結果をもたらすことを示しています。 全てのタスクにおいて、F1スコア(40-62%)は最先端(+1から+9%)よりもはるかに優れている。

During code reviews, an essential step in software quality assurance, reviewers have the difficult task of understanding and evaluating code changes to validate their quality and prevent introducing faults to the codebase. This is a tedious process where the effort needed is highly dependent on the code submitted, as well as the author's and the reviewer's experience, leading to median wait times for review feedback of 15-64 hours. Through an initial user study carried with 29 experts, we found that re-ordering the files changed by a patch within the review environment has potential to improve review quality, as more comments are written (+23%), and participants' file-level hot-spot precision and recall increases to 53% (+13%) and 28% (+8%), respectively, compared to the alphanumeric ordering. Hence, this paper aims to help code reviewers by predicting which files in a submitted patch need to be (1) commented, (2) revised, or (3) are hot-spots (commented or revised). To predict these tasks, we evaluate two different types of text embeddings (i.e., Bag-of-Words and Large Language Models encoding) and review process features (i.e., code size-based and history-based features). Our empirical study on three open-source and two industrial datasets shows that combining the code embedding and review process features leads to better results than the state-of-the-art approach. For all tasks, F1-scores (median of 40-62%) are significantly better than the state-of-the-art (from +1 to +9%).
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# 複数項目読解の難易度ランキング

Question Difficulty Ranking for Multiple-Choice Reading Comprehension ( http://arxiv.org/abs/2404.10704v1 )

ライセンス: Link先を確認
Vatsal Raina, Mark Gales, (参考訳) 複数選択テスト(MC)は、英語学習者を評価するのに有効な方法である。 テストクリエーターは、試験キュレーションの際の難易度によって、候補MCの質問をランク付けするのに役立つ。 通常、この難易度は、人間の試験受験者が事前試験段階で質問を審理することで決定される。 しかし、これは高価でスケーラブルではない。 そこで我々は,MC質問を難易度でランク付けする自動化手法について検討した。 しかし、難易度スコアのためのシステムの明示的なトレーニングには限定的なデータがある。 したがって、タスク転送とゼロショットのアプローチを比較する:タスク転送はレベル分類と読解システムに適応し、命令の微調整された言語モデルのゼロショットプロンプトは、比較に対する絶対的な評価とは対照的である。 その結果, レベル分類は読解よりも優れていることがわかった。 さらに、ゼロショット比較評価は絶対評価よりもランク付けが難しい場合の方が効果的であり、スピアマンの相関が40.4%である場合のタスク転送アプローチでさえも困難である。 システムの組み合わせが観測され、相関がさらに高められる。

Multiple-choice (MC) tests are an efficient method to assess English learners. It is useful for test creators to rank candidate MC questions by difficulty during exam curation. Typically, the difficulty is determined by having human test takers trial the questions in a pretesting stage. However, this is expensive and not scalable. Therefore, we explore automated approaches to rank MC questions by difficulty. However, there is limited data for explicit training of a system for difficulty scores. Hence, we compare task transfer and zero-shot approaches: task transfer adapts level classification and reading comprehension systems for difficulty ranking while zero-shot prompting of instruction finetuned language models contrasts absolute assessment against comparative. It is found that level classification transfers better than reading comprehension. Additionally, zero-shot comparative assessment is more effective at difficulty ranking than the absolute assessment and even the task transfer approaches at question difficulty ranking with a Spearman's correlation of 40.4%. Combining the systems is observed to further boost the correlation.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# アラブ泉周辺における異種集団記憶のクロスランゲージ進化

Cross-Language Evolution of Divergent Collective Memory Around the Arab Spring ( http://arxiv.org/abs/2404.10706v1 )

ライセンス: Link先を確認
H. Laurie Jones, Brian C. Keegan, (参考訳) アラブの春は2011年に始まった歴史的な抗議活動であり、政府に打撃を与え、大きな紛争を引き起こした。 このような出来事の集合記憶は、政治的、文化的、言語的要因に応じて、社会的文脈によって大きく異なる可能性がある。 ウィキペディアは歴史的な出来事と現在の出来事の両方を文書化する上で重要な役割を担っているが、主要な出来事の余波で作成されたウィキペディアの記事が何年も、何十年もの間どのように進化し続けるかについてはほとんど注目されていない。 2011年から2024年にかけて、アラビア語と英語のウィキペディアにおけるアラブ春関連トピックのアーカイブコンテンツを用いて、アラブ春を取り巻く集合記憶の多言語的サリエンス、熟考、文脈化、統合化を定義し、評価した。 言語間でのウィキペディア記事のコンテンツ類似性の時間的進化に関する知見は、オンラインの集合記憶過程の理論化や、これらのデータに基づいて訓練された言語モデルの評価に影響を及ぼす。

The Arab Spring was a historic set of protests beginning in 2011 that toppled governments and led to major conflicts. Collective memories of events like these can vary significantly across social contexts in response to political, cultural, and linguistic factors. While Wikipedia plays an important role in documenting both historic and current events, little attention has been given to how Wikipedia articles, created in the aftermath of major events, continue to evolve over years or decades. Using the archived content of Arab Spring-related topics across the Arabic and English Wikipedias between 2011 and 2024, we define and evaluate multilingual measures of event salience, deliberation, contextualization, and consolidation of collective memory surrounding the Arab Spring. Our findings about the temporal evolution of the Wikipedia articles' content similarity across languages has implications for theorizing about online collective memory processes and evaluating linguistic models trained on these data.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# 光子を暗く保つ:チャープパルスと磁場による全量子ドット制御の実現

Keeping the photon in the dark: Enabling full quantum dot control by chirped pulses and magnetic fields ( http://arxiv.org/abs/2404.10708v1 )

ライセンス: Link先を確認
Florian Kappe, René Schwarz, Yusuf Karli, Thomas Bracht, Vollrath M. Axt, Armando Rastelli, Vikas Remesh, Doris E. Reiter, Gregor Weihs, (参考訳) 量子ドットのダークエキシトンは直接光学的にアクセスできないため、これまでは光子生成に量子ドットを使用することで重要な役割を果たさなかった。 寿命は明るいものよりもかなり長く、光子の貯蔵や操作の可能性を秘めている。 本研究は、チャープパルスと平面内磁場を用いた基底状態から量子ドット中のスピン禁止ダークエキシトンの全光学記憶と検索を実証する。 我々の実験結果は、最先端の製品テンソル法を用いて計算された力学の理論的予測とよく一致している。 我々のスキームは、先行する崩壊に頼らずに、暗黒状態の全光学的制御を可能にする。 これにより、量子ドットから最適な量子制御と時間ビンの絡み合った光子対を生成するための新しい次元が開かれる。

Because dark excitons in quantum dots are not directly optically accessible, so far they have not played a significant role in using quantum dots for photon generation. They possess significantly longer lifetimes than their brighter counterparts and hence offer enormous potential for photon storage or manipulation. In this work, we demonstrate an all-optical storage and retrieval of the spin-forbidden dark exciton in a quantum dot from the ground state employing chirped pulses and an in-plane magnetic field. Our experimental findings are in excellent agreement with theoretical predictions of the dynamics calculated using state-of-the-art product tensor methods. Our scheme enables an all-optical control of dark states without relying on any preceding decays. This opens up a new dimension for optimal quantum control and time-bin entangled photon pair generation from quantum dots.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# テキストのデュアルモーダル性:ビジュアルおよびテキスト生成事前学習

Dual Modalities of Text: Visual and Textual Generative Pre-training ( http://arxiv.org/abs/2404.10710v1 )

ライセンス: Link先を確認
Yekun Chai, Qingyi Liu, Jingwu Xiao, Shuohuan Wang, Yu Sun, Hua Wu, (参考訳) 視覚テキストのハーネス化は、言語モデリングの進化における華やかなフロンティアを表している。 本稿では,RGB画像としてレンダリングされた4億以上の文書のコーパスを事前学習する,画素ベースの自動回帰言語モデルのための新しい事前学習フレームワークを提案する。 本手法は,次のパッチ予測による視覚データと,次のトークン予測によるテキストデータの両方を分類ヘッドで処理する,二重モードトレーニング方式を特徴とする。 本研究は,言語における視覚的・テキスト的モダリティの相乗的相互作用について検討することに焦点を当てた。 様々なベンチマークを総合的に比較した結果,視覚的およびテキスト的データの合流は,画素ベース言語モデルの有効性を著しく向上させることが明らかとなった。 特に,学習中のテキストデータがない一方向画素ベースモデルでは,様々な言語理解ベンチマークにおいて,高度な双方向画素ベースモデルの性能レベルが一致できることが示唆された。 この研究は、言語モデリングの目的のために視覚情報とテキスト情報を統合するという、未解決の可能性を浮き彫りにしている。 コード、データ、チェックポイントを公開して、さらなる研究の進展を促します。

Harnessing visual texts represents a burgeoning frontier in the evolution of language modeling. In this paper, we introduce a novel pre-training framework for a suite of pixel-based autoregressive language models, pre-training on a corpus of over 400 million documents rendered as RGB images. Our approach is characterized by a dual-modality training regimen, engaging both visual data through next patch prediction with a regression head and textual data via next token prediction with a classification head. This study is particularly focused on investigating the synergistic interplay between visual and textual modalities of language. Our comprehensive evaluation across a diverse array of benchmarks reveals that the confluence of visual and textual data substantially augments the efficacy of pixel-based language models. Notably, our findings show that a unidirectional pixel-based model, devoid of textual data during training, can match the performance levels of advanced bidirectional pixel-based models on various language understanding benchmarks. This work highlights the considerable untapped potential of integrating visual and textual information for language modeling purposes. We will release our code, data, and checkpoints to inspire further research advancement.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# 腹腔鏡下シャント手術における拡張現実の有用性の検討

A Plausibility Study of Using Augmented Reality in the Ventriculoperitoneal Shunt Operations ( http://arxiv.org/abs/2404.10713v1 )

ライセンス: Link先を確認
Tandin Dorji, Pakinee Aimmanee, Vich Yindeedej, (参考訳) 拡張現実(AR)の分野は、医療産業における多様な応用を見出すなど、かなりの成長を遂げている。 本論文は, 医療手術における様々な技術, 費用, 実装, アクセシビリティなどの要因を精査するものである。 この探索の焦点はARベースのソリューションであり、特に課題に対処し、腹腔鏡下腹膜シャント(VP)手術のための革新的なソリューションを提案することに焦点を当てている。 提案手法は,頭蓋骨と心室の3次元モデルを作成することにより,設定時間と手術期間を大幅に短縮することを目的として,手術前段階の新たな流れを導入する。 実験では、モデルをARデバイス、特にMicrosoft HoloLens 2.0を介して3Dプリントされた頭蓋骨で視覚化する。 次に,提案手法の詳細な分析を行い,その実現可能性,利点,限界,将来的な影響について論じる。

The field of augmented reality (AR) has undergone substantial growth, finding diverse applications in the medical industry. This paper delves into various techniques employed in medical surgeries, scrutinizing factors such as cost, implementation, and accessibility. The focus of this exploration is on AR-based solutions, with a particular emphasis on addressing challenges and proposing an innovative solution for ventriculoperitoneal shunt (VP) operations. The proposed solution introduces a novel flow in the pre-surgery phase, aiming to substantially reduce setup time and operation duration by creating 3D models of the skull and ventricles. Experiments are conducted where the models are visualized on a 3D- printed skull through an AR device, specifically the Microsoft HoloLens 2. The paper then conducts an in-depth analysis of this proposed solution, discussing its feasibility, advantages, limitations,and future implications.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# AV-GAN:不均一な医用画像翻訳のためのアテンションベース可変共役変換ネットワーク

AV-GAN: Attention-Based Varifocal Generative Adversarial Network for Uneven Medical Image Translation ( http://arxiv.org/abs/2404.10714v1 )

ライセンス: Link先を確認
Zexin Li, Yiyang Lin, Zijie Fang, Shuyan Li, Xiu Li, (参考訳) 異なる種類の染色は、臓器の異なる構造を強調し、診断を助ける。 しかし, 繰り返し染色が不可能なため, 同じ組織領域の染色スライスの種類が異なるわけにはいかない。 入手し易いスライド(例えば、H&E)を、入手し難い染色タイプのスライド(例えば、MT、PAS)に翻訳することは、この問題を解決するための有望な方法である。 しかし、いくつかの地域は他の地域と密接に結びついており、この関係を維持するために、しばしば複雑な構造を持ち、翻訳が困難であり、誤った翻訳につながる可能性がある。 本稿では,異なる領域における不均一な翻訳困難,複数解像度情報の相互干渉,核変形といった,病理画像翻訳タスクにおける複数の問題を解消するアテンションベースVarifocal Generative Adversarial Network (AV-GAN)を提案する。 具体的には,翻訳難易度の高い領域に適応できるアテンションベースキーリージョン選択モジュールを開発する。 次に、これらの領域を複数の解像度で翻訳するVarifocal Moduleを開発する。 AV-GANは2つの仮想腎臓組織染色タスクで既存の画像翻訳方法より優れており、H&E-MTタスクとH&E-PASタスクでそれぞれ15.9と4.16のFID値が改善されている。

Different types of staining highlight different structures in organs, thereby assisting in diagnosis. However, due to the impossibility of repeated staining, we cannot obtain different types of stained slides of the same tissue area. Translating the slide that is easy to obtain (e.g., H&E) to slides of staining types difficult to obtain (e.g., MT, PAS) is a promising way to solve this problem. However, some regions are closely connected to other regions, and to maintain this connection, they often have complex structures and are difficult to translate, which may lead to wrong translations. In this paper, we propose the Attention-Based Varifocal Generative Adversarial Network (AV-GAN), which solves multiple problems in pathologic image translation tasks, such as uneven translation difficulty in different regions, mutual interference of multiple resolution information, and nuclear deformation. Specifically, we develop an Attention-Based Key Region Selection Module, which can attend to regions with higher translation difficulty. We then develop a Varifocal Module to translate these regions at multiple resolutions. Experimental results show that our proposed AV-GAN outperforms existing image translation methods with two virtual kidney tissue staining tasks and improves FID values by 15.9 and 4.16 respectively in the H&E-MT and H&E-PAS tasks.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# 現代のサンドボックス環境に対する動的周波数ベースフィンガープリント攻撃

Dynamic Frequency-Based Fingerprinting Attacks against Modern Sandbox Environments ( http://arxiv.org/abs/2404.10715v1 )

ライセンス: Link先を確認
Debopriya Roy Dipta, Thore Tiemann, Berk Gulmezoglu, Eduard Marin Fabregas, Thomas Eisenbarth, (参考訳) クラウドコンピューティングの展望は近年大きく進化し、現代のクラウドアプリケーションの多様な要求を満たすために、様々なサンドボックスを採用しています。 これらのサンドボックスには、DockerやgVisorといったコンテナベースのテクノロジ、FirecrackerのようなmicroVMベースのソリューション、Intel SGXやAMD SEVといったTrusted Execution Environment(TEE)に依存するセキュリティ中心のサンドボックスが含まれている。 しかし、複数のテナントを共有物理ハードウェアに配置するプラクティスは、セキュリティとプライバシの懸念を引き起こす。 本稿では,Intel および AMD CPU の CPU 周波数レポートセンサによる指紋認証の可能性について検討する。 私たちの攻撃の鍵となるのは、現在のCPU周波数情報がユーザ空間攻撃者によってアクセス可能であることです。 我々は、Dockerイメージがユニークな周波数シグネチャを示し、異なるコアで複数のコンテナが同時に実行されている場合でも、最大84.5%の精度で異なるコンテナを区別できることを示した。 さらに、GoogleのgVisor、AWSのFirecracker、Gramine(Intel SGXを活用する)やAMD SEVのようなTEEベースのプラットフォームなど、クラウド環境にデプロイされたいくつかのサンドボックスに対して実行された攻撃の有効性を評価します。 実験の結果、これらの攻撃は40秒未満で全てのサンドボックスに対して成功し、すべてのケースで70%以上の精度で実行可能であることが示された。 最後に,提案するクラウド環境に対する攻撃を軽減するため,ノイズ注入による対策を提案する。

The cloud computing landscape has evolved significantly in recent years, embracing various sandboxes to meet the diverse demands of modern cloud applications. These sandboxes encompass container-based technologies like Docker and gVisor, microVM-based solutions like Firecracker, and security-centric sandboxes relying on Trusted Execution Environments (TEEs) such as Intel SGX and AMD SEV. However, the practice of placing multiple tenants on shared physical hardware raises security and privacy concerns, most notably side-channel attacks. In this paper, we investigate the possibility of fingerprinting containers through CPU frequency reporting sensors in Intel and AMD CPUs. One key enabler of our attack is that the current CPU frequency information can be accessed by user-space attackers. We demonstrate that Docker images exhibit a unique frequency signature, enabling the distinction of different containers with up to 84.5% accuracy even when multiple containers are running simultaneously in different cores. Additionally, we assess the effectiveness of our attack when performed against several sandboxes deployed in cloud environments, including Google's gVisor, AWS' Firecracker, and TEE-based platforms like Gramine (utilizing Intel SGX) and AMD SEV. Our empirical results show that these attacks can also be carried out successfully against all of these sandboxes in less than 40 seconds, with an accuracy of over 70% in all cases. Finally, we propose a noise injection-based countermeasure to mitigate the proposed attack on cloud environments.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# MOWA:マルチインワンイメージワープモデル

MOWA: Multiple-in-One Image Warping Model ( http://arxiv.org/abs/2404.10716v1 )

ライセンス: Link先を確認
Kang Liao, Zongsheng Yue, Zhonghua Wu, Chen Change Loy, (参考訳) 最近の画像ワープアプローチは既存のベンチマークで顕著に成功したが、特定のタスクごとに個別のモデルをトレーニングする必要があるため、異なるカメラモデルやカスタマイズされた操作にうまく対応できない。 本研究で提案するマルチ・イン・ワン・イメージWArpingモデル(MOWA)は,マルチ・イン・ワン・イメージWArpingモデル(Multiple-in-One Image WArping model)である。 具体的には、領域レベルと画素レベルの両方で動作推定を遠ざけることで、マルチタスク学習の難しさを軽減する。 さらに動的なタスク認識画像のワープを可能にするために,タスクタイプを予測する軽量なポイントベース分類器を導入する。 私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。 マルチインワンイメージワープのために6つのタスクでトレーニングされたMOWAは、ほとんどのタスクで最先端のタスク固有モデルより優れています。 さらに、MOWAは、クロスドメインとゼロショットの評価によって証明されているように、目に見えないシーンに一般化する有望な可能性をも示している。 コードは公開されます。

While recent image warping approaches achieved remarkable success on existing benchmarks, they still require training separate models for each specific task and cannot generalize well to different camera models or customized manipulations. To address diverse types of warping in practice, we propose a Multiple-in-One image WArping model (named MOWA) in this work. Specifically, we mitigate the difficulty of multi-task learning by disentangling the motion estimation at both the region level and pixel level. To further enable dynamic task-aware image warping, we introduce a lightweight point-based classifier that predicts the task type, serving as prompts to modulate the feature maps for better estimation. To our knowledge, this is the first work that solves multiple practical warping tasks in one single model. Extensive experiments demonstrate that our MOWA, which is trained on six tasks for multiple-in-one image warping, outperforms state-of-the-art task-specific models across most tasks. Moreover, MOWA also exhibits promising potential to generalize into unseen scenes, as evidenced by cross-domain and zero-shot evaluations. The code will be made publicly available.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# 半教師型医用画像分割のための混合プロトタイプ一貫性学習

Mixed Prototype Consistency Learning for Semi-supervised Medical Image Segmentation ( http://arxiv.org/abs/2404.10717v1 )

ライセンス: Link先を確認
Lijian Li, (参考訳) 近年,半教師付き医用画像のセグメンテーションにプロトタイプ学習が登場し,優れた成果を上げている。 しかし、ラベル付きデータの不足は、以前の手法におけるプロトタイプの表現性を制限し、クラス埋め込みのためのプロトタイプの完全な表現を妨げる可能性がある。 そこで本研究では,Mixed Prototype Consistency Learning (MPCL) フレームワークを提案する。 Mean Teacherはラベル付きおよびラベルなしデータのプロトタイプを生成し、補助ネットワークはCutMixによって処理された混合データのための追加のプロトタイプを生成する。 プロトタイプ融合により、混合プロトタイプはラベル付きプロトタイプとラベルなしプロトタイプの両方に追加のセマンティック情報を提供する。 各クラスの高品質なグローバルプロトタイプは、2つの強化されたプロトタイプを融合して形成され、一貫性学習に使用される隠れ埋め込みの分布を最適化する。 左心房およびB型大動脈解離データセットの広範な実験は,MPCLが従来の最先端アプローチよりも優れていることを証明し,本フレームワークの有効性を確認した。 コードはまもなくリリースされる。

Recently, prototype learning has emerged in semi-supervised medical image segmentation and achieved remarkable performance. However, the scarcity of labeled data limits the expressiveness of prototypes in previous methods, potentially hindering the complete representation of prototypes for class embedding. To address this problem, we propose the Mixed Prototype Consistency Learning (MPCL) framework, which includes a Mean Teacher and an auxiliary network. The Mean Teacher generates prototypes for labeled and unlabeled data, while the auxiliary network produces additional prototypes for mixed data processed by CutMix. Through prototype fusion, mixed prototypes provide extra semantic information to both labeled and unlabeled prototypes. High-quality global prototypes for each class are formed by fusing two enhanced prototypes, optimizing the distribution of hidden embeddings used in consistency learning. Extensive experiments on the left atrium and type B aortic dissection datasets demonstrate MPCL's superiority over previous state-of-the-art approaches, confirming the effectiveness of our framework. The code will be released soon.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# GazeHTA:ヘッド・ターゲット・アソシエーションによるエンド・ツー・エンドの目標検出

GazeHTA: End-to-end Gaze Target Detection with Head-Target Association ( http://arxiv.org/abs/2404.10718v1 )

ライセンス: Link先を確認
Zhi-Yi Lin, Jouh Yeong Chew, Jan van Gemert, Xucong Zhang, (参考訳) 本研究では、視線目標検出のためのエンドツーエンドなアプローチを提案する。 既存の方法の多くは、オフザシェルフヘッド検出器のような独立したコンポーネントを使用するか、ヘッドと視線ターゲットの関連を確立するのに問題がある。 対照的に、入力シーン画像のみに基づいて複数のヘッドターゲットインスタンスを予測するヘッド・アンド・ターゲット・アソシエーション(GazeHTA)を用いて、エンド・ツー・エンドのマルチパーソン・ゲイズ目標検出フレームワークについて検討する。 GazeHTAは,(1)事前学習した拡散モデルを用いてシーンの特徴を抽出し,豊かなセマンティック理解を実現すること,(2)頭部特徴を再注入して頭部理解を改善すること,(3)頭部と視線目標の明確な視覚的関連性として接続マップを学習することによる視線目標検出の課題に対処する。 実験の結果,GazeHTAは2つの標準データセットに対して,最先端の視線目標検出法と2つの適応拡散ベースラインより優れていた。

We propose an end-to-end approach for gaze target detection: predicting a head-target connection between individuals and the target image regions they are looking at. Most of the existing methods use independent components such as off-the-shelf head detectors or have problems in establishing associations between heads and gaze targets. In contrast, we investigate an end-to-end multi-person Gaze target detection framework with Heads and Targets Association (GazeHTA), which predicts multiple head-target instances based solely on input scene image. GazeHTA addresses challenges in gaze target detection by (1) leveraging a pre-trained diffusion model to extract scene features for rich semantic understanding, (2) re-injecting a head feature to enhance the head priors for improved head understanding, and (3) learning a connection map as the explicit visual associations between heads and gaze targets. Our extensive experimental results demonstrate that GazeHTA outperforms state-of-the-art gaze target detection methods and two adapted diffusion-based baselines on two standard datasets.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# LLMアライメントにおけるDPOはPPOに優越しているか? : 総合的研究

Is DPO Superior to PPO for LLM Alignment? A Comprehensive Study ( http://arxiv.org/abs/2404.10719v1 )

ライセンス: Link先を確認
Shusheng Xu, Wei Fu, Jiaxuan Gao, Wenjie Ye, Weilin Liu, Zhiyu Mei, Guangju Wang, Chao Yu, Yi Wu, (参考訳) Reinforcement Learning from Human Feedback (RLHF) は現在、大きな言語モデル(LLM)を人間の好みに合わせるために最も広く使われている手法である。 既存のRLHF法は、報酬ベースまたは報酬フリーと大まかに分類できる。 ChatGPTやClaudeといった新しいアプリケーションは、報酬モデルを学び、PPO(Proximal Policy Optimization)のようなアクター批判アルゴリズムを適用する報酬ベースの手法を利用している。 しかしながら、学術ベンチマークでは、最先端の結果は直接選好最適化(DPO)のような報酬のない手法によって達成されることが多い。 DPOは本当にPPOより優れているか? なぜPPOはこれらのベンチマークでパフォーマンスが悪いのか? 本稿では,まずDPOのアルゴリズム特性に関する理論的および実証的研究を行い,DPOが基本的限界を持つことを示す。 さらに、PPOを網羅的に検討し、微調整LDMにおけるPPOの優れた性能の鍵となる要因を明らかにする。 最後に、対話からコード生成まで、さまざまなRLHFテストベッドでDPOとPPOをベンチマークする。 実験の結果、PPOはあらゆるケースにおいて他のアライメント手法を超越し、挑戦的なコード競争で最先端の結果を得ることができた。

Reinforcement Learning from Human Feedback (RLHF) is currently the most widely used method to align large language models (LLMs) with human preferences. Existing RLHF methods can be roughly categorized as either reward-based or reward-free. Novel applications such as ChatGPT and Claude leverage reward-based methods that first learn a reward model and apply actor-critic algorithms, such as Proximal Policy Optimization (PPO). However, in academic benchmarks, state-of-the-art results are often achieved via reward-free methods, such as Direct Preference Optimization (DPO). Is DPO truly superior to PPO? Why does PPO perform poorly on these benchmarks? In this paper, we first conduct both theoretical and empirical studies on the algorithmic properties of DPO and show that DPO may have fundamental limitations. Moreover, we also comprehensively examine PPO and reveal the key factors for the best performances of PPO in fine-tuning LLMs. Finally, we benchmark DPO and PPO across various a collection of RLHF testbeds, ranging from dialogue to code generation. Experiment results demonstrate that PPO is able to surpass other alignment methods in all cases and achieve state-of-the-art results in challenging code competitions.
翻訳日:2024-04-17 16:05:12 公開日:2024-04-16
# ランダムユニタリ回路におけるヒルベルト空間の非局在化

Hilbert space delocalization under random unitary circuits ( http://arxiv.org/abs/2404.10725v1 )

ライセンス: Link先を確認
Xhek Turkeshi, Piotr Sierant, (参考訳) 選択された基底状態で初期化された量子系のユニタリ力学は、一般に、すべての基底状態の重ね合わせである状態をもたらす。 この過程は、コヒーレンスの資源理論と密接に結びついている量子情報と結びついており、ヒルベルト空間における系の状態の徐々に非局在化と見なすことができる。 この研究は、ランダム量子回路の力学の下でヒルベルト空間の非局在化を分析し、量子多体系のカオス力学の最小モデルとして機能する。 我々は、ヒルベルト空間の非局在化を定量化する参加エントロピーの時間発展を研究するために、レプリカトリックとワインガルテン計算に基づく解析手法を用いる。 システムサイズと対数的にスケールする時間において、参加者のエントロピーが一定の精度で、その長期飽和値に近づくことを実証する。 具体的な数値シミュレーションとテンソルネットワーク技術は、我々の発見を裏付けるものである。

Unitary dynamics of a quantum system initialized in a selected basis state yields, generically, a state that is a superposition of all the basis states. This process, associated with the quantum information scrambling and intimately tied to the resource theory of coherence, may be viewed as a gradual delocalization of the system's state in the Hilbert space. This work analyzes the Hilbert space delocalization under dynamics of random quantum circuits, which serve as a minimal model of chaotic dynamics of quantum many-body systems. We employ analytical methods based on the replica trick and Weingarten calculus to investigate the time evolution of the participation entropies which quantify the Hilbert space delocalization. We demonstrate that the participation entropies approach, up to a fixed accuracy, their long-time saturation value in times that scale logarithmically with the system size. Exact numerical simulations and tensor network techniques corroborate our findings.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# 強化学習による量子デバイスの自動校正

Automatic re-calibration of quantum devices by reinforcement learning ( http://arxiv.org/abs/2404.10726v1 )

ライセンス: Link先を確認
T. Crosta, L. Rebón, F. Vilariño, J. M. Matera, M. Bilkis, (参考訳) 運用中、環境条件の変化により、デバイスは最適な設定から様々な形態のデチューンを行う。 通常、これは変数とデバイスのパフォーマンスを監視し、最適な値の設定を維持する制御ループを通して対処される。 量子デバイスは、パラメータを正確に調整することに依存するため、特に難しい。 同時に、環境挙動の詳細なモデリングは、しばしば計算不可能であり、システム状態を定義するパラメータの直接測定はコストがかかり、メカニズムに余分なノイズが生じる。 本研究では,量子デバイスパラメータの連続的な再校正のためのモデルフリー制御ループの開発のための強化学習手法の適用について検討する。 さらに,環境騒音を最小限に抑えることの利点についても検討する。 例えば、ケネディ受信機を用いた長距離量子通信プロトコルの数値シミュレーションへの応用について述べる。

During their operation, due to shifts in environmental conditions, devices undergo various forms of detuning from their optimal settings. Typically, this is addressed through control loops, which monitor variables and the device performance, to maintain settings at their optimal values. Quantum devices are particularly challenging since their functionality relies on precisely tuning their parameters. At the same time, the detailed modeling of the environmental behavior is often computationally unaffordable, while a direct measure of the parameters defining the system state is costly and introduces extra noise in the mechanism. In this study, we investigate the application of reinforcement learning techniques to develop a model-free control loop for continuous recalibration of quantum device parameters. Furthermore, we explore the advantages of incorporating minimal environmental noise models. As an example, the application to numerical simulations of a Kennedy receiver-based long-distance quantum communication protocol is presented.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# 深層ネットワークがスパースと階層データをどのように学習するか:スパースランダム階層モデル

How Deep Networks Learn Sparse and Hierarchical Data: the Sparse Random Hierarchy Model ( http://arxiv.org/abs/2404.10727v1 )

ライセンス: Link先を確認
Umberto Tomasini, Matthieu Wyart, (参考訳) 高次元データを学習可能にするものを理解することは、機械学習の基本的な問題である。 一方、ディープラーニングの成功は、エッジのような単純な機能からより複雑な概念へと、深みとともにますます抽象化されていく表現の階層を構築する能力にあると信じられている。 一方、画像データセットのスムーズな変換のようなタスクの不変性に敏感な学習は、ディープネットワークにとって重要であると主張しており、その性能と強く相関している。 本研究は,この相関関係を説明し,これら2つの視点を統合することを目的とする。 生成的階層的データモデルに空間性を導入することで、スムーズな変換の離散バージョンである空間変換に対する非感受性を得ることを示す。 特に,Sparse Random Hierarchy Model (SRHM)を導入し,階層モデルに反映した階層的表現が,その不感度が学習された時に正確に学習されることを観察・合理化し,後者と性能の強い相関関係を説明する。 さらに、SRHMを学習するCNNのサンプルの複雑さが、タスクのスパーシリティと階層構造の両方にどのように依存するかを定量化する。

Understanding what makes high-dimensional data learnable is a fundamental question in machine learning. On the one hand, it is believed that the success of deep learning lies in its ability to build a hierarchy of representations that become increasingly more abstract with depth, going from simple features like edges to more complex concepts. On the other hand, learning to be insensitive to invariances of the task, such as smooth transformations for image datasets, has been argued to be important for deep networks and it strongly correlates with their performance. In this work, we aim to explain this correlation and unify these two viewpoints. We show that by introducing sparsity to generative hierarchical models of data, the task acquires insensitivity to spatial transformations that are discrete versions of smooth transformations. In particular, we introduce the Sparse Random Hierarchy Model (SRHM), where we observe and rationalize that a hierarchical representation mirroring the hierarchical model is learnt precisely when such insensitivity is learnt, thereby explaining the strong correlation between the latter and performance. Moreover, we quantify how the sample complexity of CNNs learning the SRHM depends on both the sparsity and hierarchical structure of the task.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# 協調型マルチエージェント強化学習におけるランダムな探索

Randomized Exploration in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2404.10728v1 )

ライセンス: Link先を確認
Hao-Lun Hsu, Weixin Wang, Miroslav Pajic, Pan Xu, (参考訳) 協調型マルチエージェント強化学習(MARL)における確率的ランダム化探索の最初の研究について述べる。 並列マルコフ決定過程(MDP)におけるランダム化探索のための統一的アルゴリズムフレームワークと,設計に柔軟で実装が容易な2つのトンプソンサンプリング(TS)型アルゴリズムであるCoopTS-PHEとCoopTS-LMCを提案する。 CoopTS-PHE と CoopTS-LMC がともに(ほぼ)線形である特別な並列 MDP に対して、$\widetilde{\mathcal{O}}(d^{3/2}H^2\sqrt{MK})$ regret bound with communication complexity $\widetilde{\mathcal{O}}(dHM^2)$, $d$ is the feature dimension, $H$ is the horizon length, $M$ is the number of agent, $K$ is the number of episodes。 これはMARLのランダム化探索における最初の理論的結果である。 提案手法は, 深層探査問題 (\textit{i.e.} $N$-chain) , ビデオゲーム, エネルギーシステムにおける実世界の問題など, 複数並列RL環境における提案手法の評価を行う。 我々の実験結果は、不特定遷移モデルの条件下であっても、我々のフレームワークがより良い性能を達成することができることを裏付ける。 さらに,統合フレームワークとフェデレート学習の実践的応用の関連性を確立する。

We present the first study on provably efficient randomized exploration in cooperative multi-agent reinforcement learning (MARL). We propose a unified algorithm framework for randomized exploration in parallel Markov Decision Processes (MDPs), and two Thompson Sampling (TS)-type algorithms, CoopTS-PHE and CoopTS-LMC, incorporating the perturbed-history exploration (PHE) strategy and the Langevin Monte Carlo exploration (LMC) strategy respectively, which are flexible in design and easy to implement in practice. For a special class of parallel MDPs where the transition is (approximately) linear, we theoretically prove that both CoopTS-PHE and CoopTS-LMC achieve a $\widetilde{\mathcal{O}}(d^{3/2}H^2\sqrt{MK})$ regret bound with communication complexity $\widetilde{\mathcal{O}}(dHM^2)$, where $d$ is the feature dimension, $H$ is the horizon length, $M$ is the number of agents, and $K$ is the number of episodes. This is the first theoretical result for randomized exploration in cooperative MARL. We evaluate our proposed method on multiple parallel RL environments, including a deep exploration problem (\textit{i.e.,} $N$-chain), a video game, and a real-world problem in energy systems. Our experimental results support that our framework can achieve better performance, even under conditions of misspecified transition models. Additionally, we establish a connection between our unified framework and the practical application of federated learning.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# マシンラーニングモデルをインテリジェンス処理ユニットに移行したInsight

Insight Gained from Migrating a Machine Learning Model to Intelligence Processing Units ( http://arxiv.org/abs/2404.10730v1 )

ライセンス: Link先を確認
Hieu Le, Zhenhua He, Mai Le, Dhruva K. Chakravorty, Lisa M. Perez, Akhil Chilumuru, Yan Yao, Jiefu Chen, (参考訳) 本稿では、インテリジェンス処理ユニット(IPU)が、材料科学とバッテリー研究の分野における機械学習(ML)アプリケーションのためのGPUに代わる実行可能なアクセラレータを提供することを示す。 本稿では,GPU から IPU への移行プロセスについて検討し,IPU モデルの性能向上を目的としたパイプライニングや勾配蓄積など,いくつかの最適化手法について検討する。 さらに、我々は、特別なモデルをIPUプラットフォームに効果的に移行しました。 このモデルは、イオン輸送プロセスにおいて重要なパラメータである有効導電率の予測に用いられ、電池の複数充電サイクルと放電サイクルのパフォーマンスを制御している。 このモデルは、畳み込みニューラルネットワーク(CNN)アーキテクチャを使用して、効率的な導電率の予測タスクを実行する。 IPUにおけるこのモデルの性能は、GPU上での実行に匹敵する。 また,Graphcore の Bow IPU の利用状況と性能についても検討した。 ベンチマークテストにより,前機種であるColossus IPUと比較して,Bow IPUの性能が大幅に向上した。

The discoveries in this paper show that Intelligence Processing Units (IPUs) offer a viable accelerator alternative to GPUs for machine learning (ML) applications within the fields of materials science and battery research. We investigate the process of migrating a model from GPU to IPU and explore several optimization techniques, including pipelining and gradient accumulation, aimed at enhancing the performance of IPU-based models. Furthermore, we have effectively migrated a specialized model to the IPU platform. This model is employed for predicting effective conductivity, a parameter crucial in ion transport processes, which govern the performance of multiple charge and discharge cycles of batteries. The model utilizes a Convolutional Neural Network (CNN) architecture to perform prediction tasks for effective conductivity. The performance of this model on the IPU is found to be comparable to its execution on GPUs. We also analyze the utilization and performance of Graphcore's Bow IPU. Through benchmark tests, we observe significantly improved performance with the Bow IPU when compared to its predecessor, the Colossus IPU.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# AGIは何を意味しているのか? : 人工知能の定義について

What is Meant by AGI? On the Definition of Artificial General Intelligence ( http://arxiv.org/abs/2404.10731v1 )

ライセンス: Link先を確認
Bowen Xu, (参考訳) 本稿では,AGIの定義に関するコンセンサスを確立することを目的とする。 一般知能とは、限られた資源を使用する特定の原則に従ってオープンな環境に適応することを指す。 適応や学習はインテリジェンスにとって欠かせない性質であり、様々な観点から説明できるインテリジェンスの原理の中に議論の的となる部分を置くことを強調している。

This paper aims to establish a consensus on AGI's definition. General intelligence refers to the adaptation to open environments according to certain principles using limited resources. It emphasizes that adaptation or learning is an indispensable property of intelligence, and places the controversial part within the principles of intelligence, which can be described from different perspectives.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# 人間-エージェント協調における高速オンライン適応のための線形モデルのブートストラップ

Bootstrapping Linear Models for Fast Online Adaptation in Human-Agent Collaboration ( http://arxiv.org/abs/2404.10733v1 )

ライセンス: Link先を確認
Benjamin A Newman, Chris Paxton, Kris Kitani, Henny Admoni, (参考訳) 人々を支援するエージェントは、パートナーの報酬機能に合わせて迅速に適応できる、十分に初期化されたポリシーを持つ必要がある。 未知のパートナーによるパフォーマンスを最大化するためのポリシーの初期化は、大規模なオフラインデータセット上の模倣学習を使用して非線形モデルをブートストラップすることで達成できる。 このようなポリシーは、その場で微調整するために禁止的な計算を必要とするため、パートナーの即時行動によって表現される報酬関数に関する重要な実行時情報を見逃す可能性がある。 対照的に、低容量モデルを用いたオンラインロジスティック回帰は、高速な推論と微調整の更新を行うため、報奨関数のアライメントに即時的なタスク動作を効果的に利用することができる。 しかし、これらの低容量モデルはオフラインデータセットによって効果的にブートストラップすることはできないため、初期化が不十分である。 本稿では,BLR-HAC,Bootstrapped Logistic Regression for Human Agent Collaborationを提案する。 我々は,BLR-HACを模擬表面再構成タスクでテストし,浅い手法よりも高いゼロショット精度を実現し,細調整された大規模非線形モデルに類似した性能を保ちながら,オンラインで適応する計算をはるかに少なくすることを示した。 コードについては、プロジェクトのページ https://sites.google.com/view/blr-hac をご覧ください。

Agents that assist people need to have well-initialized policies that can adapt quickly to align with their partners' reward functions. Initializing policies to maximize performance with unknown partners can be achieved by bootstrapping nonlinear models using imitation learning over large, offline datasets. Such policies can require prohibitive computation to fine-tune in-situ and therefore may miss critical run-time information about a partner's reward function as expressed through their immediate behavior. In contrast, online logistic regression using low-capacity models performs rapid inference and fine-tuning updates and thus can make effective use of immediate in-task behavior for reward function alignment. However, these low-capacity models cannot be bootstrapped as effectively by offline datasets and thus have poor initializations. We propose BLR-HAC, Bootstrapped Logistic Regression for Human Agent Collaboration, which bootstraps large nonlinear models to learn the parameters of a low-capacity model which then uses online logistic regression for updates during collaboration. We test BLR-HAC in a simulated surface rearrangement task and demonstrate that it achieves higher zero-shot accuracy than shallow methods and takes far less computation to adapt online while still achieving similar performance to fine-tuned, large nonlinear models. For code, please see our project page https://sites.google.com/view/blr-hac.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# 光ファイバーにおける従来の古典通信と共存する量子テレポーテーション

Quantum Teleportation Coexisting with Conventional Classical Communications in Optical Fiber ( http://arxiv.org/abs/2404.10738v1 )

ライセンス: Link先を確認
Jordan M. Thomas, Fei I. Yeh, Jim Hao Chen, Joe J. Mambretti, Scott J. Kohlert, Gregory S. Kanter, Prem Kumar, (参考訳) 量子ネットワークと古典的ネットワークが同一の光ファイバーで動作できることは、量子ネットワーク技術の展開に役立つ。 しかし、量子性能は、高出力共存する古典光のラマン自発散乱によって生じるノイズ光子の影響を受けやすい。 量子テレポーテーション(quantum teleportation)は、量子ネットワークにおける基本的な操作であるが、高データレートの従来の光学信号を持つファイバではまだ実証されていない。 本稿では,30.2kmのファイバにおいて,400GbpsのCバンド通信と共存する3ノード量子状態テレポーテーションシステムを示す。 量子忠実性を保護するため、最適化されたOバンド量子チャネルとフィルタリングによりラマンノイズレートを複数の自由度で抑制する。 忠実度は18.7dBm以上の古典的パワーで十分に維持されていることが示されている。 これらの結果は、統合ファイバ基盤内で動作する高度な量子および古典的ネットワークアプリケーションの実現可能性を示している。

The ability for quantum and classical networks to operate in the same optical fibers would aid the deployment of quantum network technology. However, quantum performance can be susceptible to noise photons generated by spontaneous Raman scattering of high-power coexisting classical light. Quantum teleportation is a fundamental operation in quantum networking, but has yet to be demonstrated in fibers populated with high data rate conventional optical signals. In this paper, we demonstrate a three-node quantum state teleportation system coexisting with 400-Gbps C-band classical communications in 30.2 km of fiber. To protect quantum fidelity, Raman noise rates are suppressed using optimized O-band quantum channels and filtering in multiple degrees of freedom. Fidelity is shown to be well maintained with elevated classical powers as high as 18.7 dBm, which could support multiple classical channels with many terabits/s aggregate data rates. These results show the feasibility of advanced quantum and classical network applications operating within a unified fiber infrastructure.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# Heuristic-free Verification-inspired Quantum Benchmarking

Heuristic-free Verification-inspired Quantum Benchmarking ( http://arxiv.org/abs/2404.10739v1 )

ライセンス: Link先を確認
Johannes Frank, Elham Kashefi, Dominik Leichtle, Michael de Oliveira, (参考訳) 本稿では,量子ベンチマークの新しいパラダイムを動機づけた量子検証にインスパイアされた,量子ベンチマークの新しいアプローチを提案する。 提案するベンチマークは、計算能力の堅牢性を示すだけでなく、スケーラビリティ、カスタマイズ性、普遍性も提供する。 デバイス一貫性を仮定しながら量子デバイスの品質に関する公式なステートメントを提供することで、ヒューリスティックスへの依存を排除します。 量子検証と量子ベンチマークの深い関係を確立する。 本稿では,量子検証プロトコルをベースとした具体的なベンチマークプロトコルを提案する。

In this paper, we introduce a new approach to quantum benchmarking inspired by quantum verification motivating new paradigms of quantum benchmarking. Our proposed benchmark not only serves as a robust indicator of computational capability but also offers scalability, customizability, and universality. By providing formal statements regarding the quality of quantum devices while assuming device consistency, we eliminate the reliance on heuristics. We establish a deep connection between quantum verification and quantum benchmarking. For practical application, we present a concrete benchmarking protocol derived from a quantum verification protocol, and prove it to match our redefined standards for quantum benchmarking.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# N-Agent Ad Hocチームワーク

N-Agent Ad Hoc Teamwork ( http://arxiv.org/abs/2404.10740v1 )

ライセンス: Link先を確認
Caroline Wang, Arrasy Rahman, Ishan Durugkar, Elad Liebman, Peter Stone, (参考訳) マルチエージェント設定における協調行動の学習への現在のアプローチは、比較的限定的な設定を前提としている。 標準的な完全協調型マルチエージェント強化学習では、学習アルゴリズムはシナリオ内の \textit{all} エージェントを制御し、アドホックなチームワークでは、学習アルゴリズムはシナリオ内の $\textit{single}$ エージェントのみを制御する。 しかし、現実の世界における多くの協調的な設定は、はるかに制限的ではない。 例えば、自動運転車のシナリオでは、企業は同じ学習アルゴリズムで車を訓練するかもしれません。 協調学習手法が対処できるシナリオのクラスを一般化するために、我々は、自律的なエージェントの集合が、評価時に動的に変化する数とタイプのチームメイトと対話し協力しなければならない、$N$-agentのアドホックチームワークを導入する。 本稿では,この問題を形式化し,エージェントモデルを用いた$\textit{Policy Optimization with Agent Modelling}$ (POAM)アルゴリズムを提案する。 POAMは、NAHT問題に対するポリシーグラデーションであり、マルチエージェント強化学習アプローチであり、チームメイト行動の表現を学習することで、多様なチームメイト行動への適応を可能にする。 StarCraft IIタスクの実証評価では、POAMはベースラインアプローチよりも協調的なタスクリターンを改善し、見当たらないチームメイトへのアウト・オブ・ディストリビューションの一般化を可能にしている。

Current approaches to learning cooperative behaviors in multi-agent settings assume relatively restrictive settings. In standard fully cooperative multi-agent reinforcement learning, the learning algorithm controls \textit{all} agents in the scenario, while in ad hoc teamwork, the learning algorithm usually assumes control over only a $\textit{single}$ agent in the scenario. However, many cooperative settings in the real world are much less restrictive. For example, in an autonomous driving scenario, a company might train its cars with the same learning algorithm, yet once on the road, these cars must cooperate with cars from another company. Towards generalizing the class of scenarios that cooperative learning methods can address, we introduce $N$-agent ad hoc teamwork, in which a set of autonomous agents must interact and cooperate with dynamically varying numbers and types of teammates at evaluation time. This paper formalizes the problem, and proposes the $\textit{Policy Optimization with Agent Modelling}$ (POAM) algorithm. POAM is a policy gradient, multi-agent reinforcement learning approach to the NAHT problem, that enables adaptation to diverse teammate behaviors by learning representations of teammate behaviors. Empirical evaluation on StarCraft II tasks shows that POAM improves cooperative task returns compared to baseline approaches, and enables out-of-distribution generalization to unseen teammates.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# Ma-QAOAの角度ラウンドパラメータ初期化手法

An angle rounding parameter initialization technique for ma-QAOA ( http://arxiv.org/abs/2404.10743v1 )

ライセンス: Link先を確認
Anthony Wilkie, James Ostrowski, Rebekah Herrman, (参考訳) マルチ角量子近似最適化アルゴリズム(ma-QAOA)は、最近導入されたアルゴリズムであり、量子近似最適化アルゴリズム(QAOA)と少なくとも同じ近似比を与え、ほとんどの場合、QAOAよりもはるかに高い近似比を与える。 ma-QAOAの欠点の1つは、QAOAよりもかなり古典的なパラメータを使用するため、古典的な最適化成分はより複雑である。 そこで本研究では,まず,まずランダムに$\pi/4$を$2\pi$から$2\pi$の倍数に設定し,このベクトルを用いてBFGSの1ラウンドのシードを行う新しいパラメータ初期化戦略を提案する。 4頂点データセットと8頂点データセットのパラメータ初期化戦略により,それぞれ0.931と0.894の平均近似比が得られた。 これは、4頂点と8頂点のデータセットに対して0.910と0.901である1つのランダム開始シードを持つBFGSを用いて最適パラメータを求めるma-QAOAの平均近似比に匹敵する。

The multi-angle quantum approximate optimization algorithm (ma-QAOA) is a recently introduced algorithm that gives at least the same approximation ratio as the quantum approximate optimization algorithm (QAOA) and, in most cases, gives a significantly higher approximation ratio than QAOA. One drawback to ma-QAOA is that it uses significantly more classical parameters than QAOA, so the classical optimization component more complex. In this paper, we motivate a new parameter initialization strategy in which angles are initially randomly set to multiples of $\pi/4$ between $-2\pi$ and $2\pi$ and this vector is used to seed one round of BFGS. We find that the parameter initialization strategy on four-vertex and eight-vertex data sets gives average approximation ratios of 0.931 and 0.894, respectively. This is comparable to the average approximation ratios of ma-QAOA where optimal parameters are found using BFGS with 1 random starting seed, which are 0.910 and 0.901 for the four-vertex and eight-vertex data sets.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# 線形マルコフ決定過程における定数規則の設定

Settling Constant Regrets in Linear Markov Decision Processes ( http://arxiv.org/abs/2404.10745v1 )

ライセンス: Link先を確認
Weitong Zhang, Zhiyuan Fan, Jiafan He, Quanquan Gu, (参考訳) 強化学習(RL)における絶え間ない後悔の保証について検討した。 我々の目的は、確率の高い無限エピソードに対して有限後悔しか生じないアルゴリズムを設計することである。 そこで我々は,遷移カーネルと報酬関数の両方を,不特定値$\zeta$までの線形関数で近似できる,不特定線形マルコフ決定過程(MDP)のアルゴリズムCert-LSVI-UCBを導入する。 Cert-LSVI-UCBの中核は、多相値目標回帰の微粒化濃度解析を容易にする革新的な認定評価器であり、エピソード数に一定となるインスタンス依存の後悔境界を確立することができる。 具体的には、最小限の最適性ギャップ$\Delta$ を特徴とする MDP に対して、Cert-LSVI-UCB は $\tilde{\mathcal{O}}(d^3H^5/\Delta)$ を高い確率で累積後悔し、不特定度 $\zeta$ が $\tilde{\mathcal{O}}(\Delta / (\sqrt{d}H^2))$ 以下であることを示す。 興味深いことに、この後悔の限界は、$K$のエピソードの数に対して一定である。 我々の知る限り、Cert-LSVI-UCB は、RL における定数、インスタンス依存、高確率の後悔を、事前の分布仮定に頼らずに無限実行に対する線形関数近似で達成する最初のアルゴリズムである。 これは、不特定性をモデル化するCert-LSVI-UCBの堅牢性を強調しているだけでなく、新しいアルゴリズム設計や、独立した興味を持つ分析技術も導入している。

We study the constant regret guarantees in reinforcement learning (RL). Our objective is to design an algorithm that incurs only finite regret over infinite episodes with high probability. We introduce an algorithm, Cert-LSVI-UCB, for misspecified linear Markov decision processes (MDPs) where both the transition kernel and the reward function can be approximated by some linear function up to misspecification level $\zeta$. At the core of Cert-LSVI-UCB is an innovative certified estimator, which facilitates a fine-grained concentration analysis for multi-phase value-targeted regression, enabling us to establish an instance-dependent regret bound that is constant w.r.t. the number of episodes. Specifically, we demonstrate that for an MDP characterized by a minimal suboptimality gap $\Delta$, Cert-LSVI-UCB has a cumulative regret of $\tilde{\mathcal{O}}(d^3H^5/\Delta)$ with high probability, provided that the misspecification level $\zeta$ is below $\tilde{\mathcal{O}}(\Delta / (\sqrt{d}H^2))$. Remarkably, this regret bound remains constant relative to the number of episodes $K$. To the best of our knowledge, Cert-LSVI-UCB is the first algorithm to achieve a constant, instance-dependent, high-probability regret bound in RL with linear function approximation for infinite runs without relying on prior distribution assumptions. This not only highlights the robustness of Cert-LSVI-UCB to model misspecification but also introduces novel algorithmic designs and analytical techniques of independent interest.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# 機械学習の原子間ポテンシャルにおけるアルケミカル自由度の補間と微分

Interpolation and differentiation of alchemical degrees of freedom in machine learning interatomic potentials ( http://arxiv.org/abs/2404.10746v1 )

ライセンス: Link先を確認
Juno Nam, Rafael Gómez-Bombarelli, (参考訳) 機械学習の原子間ポテンシャル(MLIP)は、現代の原子論シミュレーションの成果となり、最近、大規模なデータセットで事前訓練された普遍的なMLIPが、驚くほどの精度と一般化性を示している。 しかし、MLIPの計算コストは、大きなシミュレーションセルを必要とする化学的に乱れたシステムやサンプル集約的な統計手法に適用可能であることを制限している。 本稿では, グラフニューラルネットワークMLIPが離散要素を実数値テンソルとして表現するという事実を利用して, 原子論的材料シミュレーションにおける連続的かつ微分可能なアルケミカル自由度の利用を報告する。 提案手法では, MLIPのメッセージパッシング機構や読み出し機構の変更とともに, 入力グラフに対応する重みを持つアルケミカル原子を導入し, 材料の組成状態間のスムーズな補間を可能にする。 MLIPのエンドツーエンドの微分可能性により、構成重みに対するエネルギー勾配の効率的な計算が可能となる。 これらの勾配を利用して, 固体溶液の組成を目的のマクロ特性に最適化し, アルケミカル自由エネルギーシミュレーションを行い, 空孔形成と組成変化の自由エネルギーを定量化する手法を提案する。 このアプローチは、構成障害のモデリングにおける普遍的なMLIPの能力を拡張し、複雑な材料システムの位相安定性を特徴づける手段を提供する。

Machine learning interatomic potentials (MLIPs) have become a workhorse of modern atomistic simulations, and recently published universal MLIPs, pre-trained on large datasets, have demonstrated remarkable accuracy and generalizability. However, the computational cost of MLIPs limits their applicability to chemically disordered systems requiring large simulation cells or to sample-intensive statistical methods. Here, we report the use of continuous and differentiable alchemical degrees of freedom in atomistic materials simulations, exploiting the fact that graph neural network MLIPs represent discrete elements as real-valued tensors. The proposed method introduces alchemical atoms with corresponding weights into the input graph, alongside modifications to the message-passing and readout mechanisms of MLIPs, and allows smooth interpolation between the compositional states of materials. The end-to-end differentiability of MLIPs enables efficient calculation of the gradient of energy with respect to the compositional weights. Leveraging these gradients, we propose methodologies for optimizing the composition of solid solutions towards target macroscopic properties and conducting alchemical free energy simulations to quantify the free energy of vacancy formation and composition changes. The approach offers an avenue for extending the capabilities of universal MLIPs in the modeling of compositional disorder and characterizing the phase stabilities of complex materials systems.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# 生存可能なネットワーク設計問題に対する古典的および量子的分散アルゴリズム

Classical and Quantum Distributed Algorithms for the Survivable Network Design Problem ( http://arxiv.org/abs/2404.10748v1 )

ライセンス: Link先を確認
Phillip Kerger, David E. Bernal Neira, Zoe Gonzalez Izquierdo, Eleanor G. Rieffel, (参考訳) 本研究では,Survivable Network Design problem (SNDP) に対する古典的および量子的分散アプローチを,一般化されたスタイナー問題(Generalized Steiner problem)と呼ぶことがある。 これらの問題は、旅行セールスパーソン問題、スタイナーツリー問題、k接続ネットワーク問題など、多くの複雑なグラフ問題を一般化する。 我々の知る限り、SNDPの古典的あるいは量子的アルゴリズムは、我々が考慮している分散設定で定式化されていない。 本稿では,一般問題に対するヒューリスティックなアルゴリズムについて述べるが,SNDPが一般化した3つの問題に特に当てはまる,SNDPの特定のパラメータ化の下で具体的な近似境界を与える。 我々は(Goemans & Bertsimas 1993)で最初に研究された古典的集中型アルゴリズムフレームワークを使用し、その分散実装を提供する。 特に,近年のKerger et al 2023の量子最短経路計算を応用して,漸近的な量子スピードアップを実現する。 これらの結果は、考慮された問題のアプリケーションスケールのインスタンスに対して、古典的モデルと量子的モデルの間に分離が存在するかどうかという問題を提起する。

We investigate distributed classical and quantum approaches for the survivable network design problem (SNDP), sometimes called the generalized Steiner problem. These problems generalize many complex graph problems of interest, such as the traveling salesperson problem, the Steiner tree problem, and the k-connected network problem. To our knowledge, no classical or quantum algorithms for the SNDP have been formulated in the distributed settings we consider. We describe algorithms that are heuristics for the general problem but give concrete approximation bounds under specific parameterizations of the SNDP, which in particular hold for the three aforementioned problems that SNDP generalizes. We use a classical, centralized algorithmic framework first studied in (Goemans & Bertsimas 1993) and provide a distributed implementation thereof. Notably, we obtain asymptotic quantum speedups by leveraging quantum shortest path computations in this framework, generalizing recent work of (Kerger et al. 2023). These results raise the question of whether there is a separation between the classical and quantum models for application-scale instances of the problems considered.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# ディジタル双対オントロジーにおけるジェミニ原理の体系的研究

A Systematic Survey of the Gemini Principles for Digital Twin Ontologies ( http://arxiv.org/abs/2404.10754v1 )

ライセンス: Link先を確認
James Michael Tooth, Nilufer Tuptuk, Jeremy Daniel McKendrick Watson, (参考訳) オントロジーは相互運用可能なDigital Twins (DTws) を実現するために広く用いられているが、競合するDTw定義は相互運用の問題を複雑にしている。 これらの異なる双子を意味的に結びつけることは、オントロジーと認知デジタル双生児(CDTws)を通して実現可能である。 しかし、オントロジーがより広いDTwの進歩をどのように利用するかはよく分かっていない。 本稿では、PRISMA法に基づく体系的な調査を行い、DTwsを支援するオントロジーの可能性を探究し、オントロジーの進展をこの枠組みに関連付けることを目的とする。 Geminiの原則は、共通のDTw要件に焦点を当てている。 1)公共財。 2)価値創造,及び 3)洞察;十分な信頼性 4) セキュリティ。 5)開放性、及び 6)品質及び適切な機能 7) 連盟。 8)カリキュラム,及び 9) 進化。 この体系的な文献レビューは、各原則の促進におけるオントロジーの役割について考察する。 既存の研究は、これらの原則の中でDTwの課題、特にDTwの接続、意思決定の最適化、ガバナンスポリシーの推理によって解決するためにオントロジーを使用します。 さらに、文献のセクター分布を分析することで、オントロジー、DTw、ジェミニ原則の交差を含む研究が出現し、ほとんどのイノベーションが主に製造業と建設環境セクターに含まれていることがわかった。 その後、研究者、産業従事者、政策立案者にとって重要なギャップが特定される。

Ontologies are widely used for achieving interoperable Digital Twins (DTws), yet competing DTw definitions compound interoperability issues. Semantically linking these differing twins is feasible through ontologies and Cognitive Digital Twins (CDTws). However, it is often unclear how ontology use bolsters broader DTw advancements. This article presents a systematic survey following the PRISMA method, to explore the potential of ontologies to support DTws to meet the Centre for Digital Built Britain's Gemini Principles and aims to link progress in ontologies to this framework. The Gemini Principles focus on common DTw requirements, considering: Purpose for 1) Public Good, 2) Value Creation, and 3) Insight; Trustworthiness with sufficient 4) Security, 5) Openness, and 6) Quality; and appropriate Functionality of 7) Federation, 8) Curation, and 9) Evolution. This systematic literature review examines the role of ontologies in facilitating each principle. Existing research uses ontologies to solve DTw challenges within these principles, particularly by connecting DTws, optimising decisionmaking, and reasoning governance policies. Furthermore, analysing the sectoral distribution of literature found that research encompassing the crossover of ontologies, DTws and the Gemini Principles is emerging, and that most innovation is predominantly within manufacturing and built environment sectors. Critical gaps for researchers, industry practitioners, and policymakers are subsequently identified.
翻訳日:2024-04-17 15:55:23 公開日:2024-04-16
# ステレオ光曲線分類への深層学習とLCM法の適用

Deep Learning and LLM-based Methods Applied to Stellar Lightcurve Classification ( http://arxiv.org/abs/2404.10757v1 )

ライセンス: Link先を確認
Yu-Yang Li, Yu Bai, Cunshi Wang, Mengwei Qu, Ziteng Lu, Roberto Soria, Jifeng Liu, (参考訳) 光の曲線は恒星の形成と進化に関する貴重な情報源となっている。 機械学習技術の急速な進歩により、天文パターンや情報の抽出を効果的に行うことができる。 本研究では、ケプラーとK2ミッションの大規模データセットに基づいて、可変星光曲線の自動分類のためのディープラーニング・大規模言語モデル(LLM)の総合評価を行う。 特にCepheids, RR Lyrae, and eclipsing binariesに重点を置いて, 観測周期と位相分布が分類精度に及ぼす影響について検討した。 AutoDL最適化を用いることで、1D-Convolution+BiLSTMアーキテクチャとSwin Transformerで顕著な性能を達成し、それに応じて94\%と99\%の精度を達成し、後者では、全データセットの0.02\%に留まらず、Elusive Type II Cepheids-comprising just 0.02\%を識別する顕著な83%の精度を示し、LLMベースの3つのモデルであるLLM、マルチモーダル大言語モデル(MLLM)、Large Audio Language Model(LALM)の3つの革新的シリーズを披露する。 各モデルは、天文学的なデータのために、これらのモデルの創発的能力を調べるために、戦略的急進的なエンジニアリングとカスタマイズされたトレーニング手法で微調整される。 注目すべきは、StarWhisper LCシリーズは90%程度の精度を示し、明示的な特徴工学の必要性を大幅に低減し、これにより、並列データ処理の合理化と、天文学的な応用における多面的マルチモーダルモデルの進歩の道を開いたことである。 本研究は、位相とサンプリング間隔が深層学習の分類精度に与える影響を詳述した2つの詳細なカタログを作成し、観察期間の最大14倍、サンプリングポイントの21倍の大幅な減少を10倍以上の精度で達成できることを示した。

Light curves serve as a valuable source of information on stellar formation and evolution. With the rapid advancement of machine learning techniques, it can be effectively processed to extract astronomical patterns and information. In this study, we present a comprehensive evaluation of deep-learning and large language model (LLM) based models for the automatic classification of variable star light curves, based on large datasets from the Kepler and K2 missions. Special emphasis is placed on Cepheids, RR Lyrae, and eclipsing binaries, examining the influence of observational cadence and phase distribution on classification precision. Employing AutoDL optimization, we achieve striking performance with the 1D-Convolution+BiLSTM architecture and the Swin Transformer, hitting accuracies of 94\% and 99\% correspondingly, with the latter demonstrating a notable 83\% accuracy in discerning the elusive Type II Cepheids-comprising merely 0.02\% of the total dataset.We unveil StarWhisper LightCurve (LC), an innovative Series comprising three LLM-based models: LLM, multimodal large language model (MLLM), and Large Audio Language Model (LALM). Each model is fine-tuned with strategic prompt engineering and customized training methods to explore the emergent abilities of these models for astronomical data. Remarkably, StarWhisper LC Series exhibit high accuracies around 90\%, significantly reducing the need for explicit feature engineering, thereby paving the way for streamlined parallel data processing and the progression of multifaceted multimodal models in astronomical applications. The study furnishes two detailed catalogs illustrating the impacts of phase and sampling intervals on deep learning classification accuracy, showing that a substantial decrease of up to 14\% in observation duration and 21\% in sampling points can be realized without compromising accuracy by more than 10\%.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# ステップを見る - 継続的学習のための最適な検索方法

Watch Your Step: Optimal Retrieval for Continual Learning at Scale ( http://arxiv.org/abs/2404.10758v1 )

ライセンス: Link先を確認
Truman Hickok, Dhireesha Kudithipudi, (参考訳) 継続的学習における最も広く使われているアプローチの1つは、リプレイと呼ばれる。 リプレイ手法は、過去の体験をリプレイバッファに格納することで、インターリーブドラーニングをサポートする。 バッファを選択的に構築し、その内容を再処理する方法は存在するが、バッファからサンプルを選択的に取り出すという問題については限定的な検討がなされている。 現在のソリューションは限定的な設定でテストされている。 既存の作業は、重複したリプレイがパフォーマンスに与える影響についても調査していない。 本研究では, 単純, 独立なクラス選択プリミティブとサンプル選択プリミティブによって分類された選択的検索戦略を評価するためのフレームワークを提案する。 選択検索のための既存手法の組合せを評価し,その性能について検討した。 さらに,重複したリプレイを防止し,損失値の低い新しいサンプルを再生せずに学習できるかどうかを探索する戦略を提案する。 問題設定を現実的な連続的な学習パイプラインに合わせるために、我々は実験を、15のデータセットのシーケンスで完全に微調整された、大規模で訓練済みのオープンな語彙オブジェクト検出モデルを含む設定に制限する。

One of the most widely used approaches in continual learning is referred to as replay. Replay methods support interleaved learning by storing past experiences in a replay buffer. Although there are methods for selectively constructing the buffer and reprocessing its contents, there is limited exploration of the problem of selectively retrieving samples from the buffer. Current solutions have been tested in limited settings and, more importantly, in isolation. Existing work has also not explored the impact of duplicate replays on performance. In this work, we propose a framework for evaluating selective retrieval strategies, categorized by simple, independent class- and sample-selective primitives. We evaluated several combinations of existing strategies for selective retrieval and present their performances. Furthermore, we propose a set of strategies to prevent duplicate replays and explore whether new samples with low loss values can be learned without replay. In an effort to match our problem setting to a realistic continual learning pipeline, we restrict our experiments to a setting involving a large, pre-trained, open vocabulary object detection model, which is fully fine-tuned on a sequence of 15 datasets.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# Laplace-HDC:二元双対超次元計算の幾何学的理解

Laplace-HDC: Understanding the geometry of binary hyperdimensional computing ( http://arxiv.org/abs/2404.10759v1 )

ライセンス: Link先を確認
Saeid Pourmand, Wyatt D. Whiting, Alireza Aghasi, Nicholas F. Marshall, (参考訳) 本稿では,高次元二進ベクトルを用いてデータを符号化する計算手法である二進超次元計算(HDC)の幾何学について検討する。 我々はHDC結合演算子によって誘導される類似構造に関する結果を確立し、Laplaceカーネルがこの設定で自然に発生することを示す。 本稿では,画像から空間情報を符号化する際の2値HDCの限界について述べるとともに,Haarの畳み込み機能の利用や,変換等価なHDC符号化の定義など,潜在的な解決策について議論する。 代替手法とは対照的に,Laplace-HDCの精度向上を示す数値実験を行った。 また、ロバストネスや基盤となる翻訳-同変符号化などのフレームワークの他の側面についても数値的に検討する。

This paper studies the geometry of binary hyperdimensional computing (HDC), a computational scheme in which data are encoded using high-dimensional binary vectors. We establish a result about the similarity structure induced by the HDC binding operator and show that the Laplace kernel naturally arises in this setting, motivating our new encoding method Laplace-HDC, which improves upon previous methods. We describe how our results indicate limitations of binary HDC in encoding spatial information from images and discuss potential solutions, including using Haar convolutional features and the definition of a translation-equivariant HDC encoding. Several numerical experiments highlighting the improved accuracy of Laplace-HDC in contrast to alternative methods are presented. We also numerically study other aspects of the proposed framework such as robustness and the underlying translation-equivariant encoding.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# 汎用COCO-ADベンチマークに基づく多クラス異常検出のための学習特徴インバージョン

Learning Feature Inversion for Multi-class Anomaly Detection under General-purpose COCO-AD Benchmark ( http://arxiv.org/abs/2404.10760v1 )

ライセンス: Link先を確認
Jiangning Zhang, Chengjie Wang, Xiangtai Li, Guanzhong Tian, Zhucun Xue, Yong Liu, Guansong Pang, Dacheng Tao, (参考訳) 異常検出(AD)は、産業品質検査や医学的病変検査のための異常領域の検出にしばしば焦点をあてる。 しかし、特定のシナリオのターゲットのため、ADのデータスケールは比較的小さく、評価指標は、オブジェクト検出やセマンティックセグメンテーションのような古典的なビジョンタスクと比較しても不十分である。 これらのギャップを埋めるために、この研究はまず、大規模で汎用的なCOCO-ADデータセットを構築し、COCOをADフィールドに拡張する。 これにより、この挑戦的なベンチマーク上で、さまざまなメソッドに対する公平な評価と持続可能な開発が可能になる。 さらに、AU-ROCのような現在のメトリクスは、単純なデータセットでほぼ飽和状態に達しており、異なるメソッドの包括的な評価を妨げている。 セグメンテーション分野のメトリクスに着想を得て、より実践的なしきい値依存のAD依存メトリクス、すなわち、m$F_1$$^{.2}_{.8}$、mAcc$^{.2}_{.8}$、mIoU$^{.2}_{.8}$、mIoU-maxを提案する。 GANインバージョンによる高品質な再構成機能により、我々は、高品質な特徴再構成を実現するための、シンプルで強力なInvADフレームワークを提案する。 提案手法は, 一般的なMVTec AD, VisA, および新たに提案したCOCO-ADデータセットに対する再構成手法の有効性を, 多クラス無教師設定下で改善する。 広範囲にわたるアブレーション実験は、我々のInvADの各成分の有効性を実証した。 完全なコードとモデルはhttps://github.com/zhangzjn/ader.comで入手できる。

Anomaly detection (AD) is often focused on detecting anomaly areas for industrial quality inspection and medical lesion examination. However, due to the specific scenario targets, the data scale for AD is relatively small, and evaluation metrics are still deficient compared to classic vision tasks, such as object detection and semantic segmentation. To fill these gaps, this work first constructs a large-scale and general-purpose COCO-AD dataset by extending COCO to the AD field. This enables fair evaluation and sustainable development for different methods on this challenging benchmark. Moreover, current metrics such as AU-ROC have nearly reached saturation on simple datasets, which prevents a comprehensive evaluation of different methods. Inspired by the metrics in the segmentation field, we further propose several more practical threshold-dependent AD-specific metrics, ie, m$F_1$$^{.2}_{.8}$, mAcc$^{.2}_{.8}$, mIoU$^{.2}_{.8}$, and mIoU-max. Motivated by GAN inversion's high-quality reconstruction capability, we propose a simple but more powerful InvAD framework to achieve high-quality feature reconstruction. Our method improves the effectiveness of reconstruction-based methods on popular MVTec AD, VisA, and our newly proposed COCO-AD datasets under a multi-class unsupervised setting, where only a single detection model is trained to detect anomalies from different classes. Extensive ablation experiments have demonstrated the effectiveness of each component of our InvAD. Full codes and models are available at https://github.com/zhangzjn/ader.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# TorchSurv: ディープサバイバル分析のための軽量パッケージ

TorchSurv: A Lightweight Package for Deep Survival Analysis ( http://arxiv.org/abs/2404.10761v1 )

ライセンス: Link先を確認
Melodie Monod, Peter Krusche, Qian Cao, Berkman Sahiner, Nicholas Petrick, David Ohlssen, Thibaud Coroller, (参考訳) TorchSurvはPythonパッケージで、PyTorch環境内でディープサバイバルモデリングを実行するための補助ツールとして機能する。 特定のパラメトリックフォームを強制する既存のライブラリとは異なり、TorchSurvはカスタムPyTorchベースのディープサバイバルモジュールの使用を可能にする。 軽量な設計、最小限の入力要件、完全なPyTorchバックエンド、制限された生存モデルパラメータ化からの解放により、TorchSurvは効率的な深層生存モデルの実装を促進し、高次元および複雑な入力データシナリオに特に有用である。

TorchSurv is a Python package that serves as a companion tool to perform deep survival modeling within the PyTorch environment. Unlike existing libraries that impose specific parametric forms, TorchSurv enables the use of custom PyTorch-based deep survival mod- els. With its lightweight design, minimal input requirements, full PyTorch backend, and freedom from restrictive survival model parameterizations, TorchSurv facilitates efficient deep survival model implementation and is particularly beneficial for high-dimensional and complex input data scenarios
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# LaDiC: 拡散モデルは、画像からテキストへの生成において、自己回帰対数よりもはるかに劣っているか?

LaDiC: Are Diffusion Models Really Inferior to Autoregressive Counterparts for Image-to-Text Generation? ( http://arxiv.org/abs/2404.10763v1 )

ライセンス: Link先を確認
Yuchi Wang, Shuhuai Ren, Rundong Gao, Linli Yao, Qingyan Guo, Kaikai An, Jianhong Bai, Xu Sun, (参考訳) 拡散モデルはテキスト・画像生成において顕著な能力を示した。 しかし、画像キャプション(特に画像キャプション)におけるそれらのパフォーマンスは、オートレグレッシブ(AR)モデルに遅れを取っており、そのようなタスクの適用性に疑問を呈している。 本研究では,拡散モデルを再検討し,全体論的文脈モデリングと並列復号化の能力を強調した。 これらの利点により、拡散モデルは、遅い推論速度、エラーの伝搬、一方向の制約を含む、ARメソッド固有の制限を軽減することができる。 さらに,画像テキストアライメントに有効な潜在空間が存在しないことや,連続拡散過程と離散テキストデータとの相違から生じる拡散モデルの先行的過渡性能を同定する。 そこで本研究では,分割されたBERTを用いてキャプション専用のラテント空間を作成し,正規化モジュールを統合してテキスト長を管理する新しいアーキテクチャLaDiCを提案する。 提案フレームワークには,意味的画像からテキストへの変換のためのディフューザや,推論中のトークンの対話性を向上するBack&Refine技術も含まれている。 LaDiCは、38.2 BLEU@4と126.2 CIDErのMS COCOデータセット上の拡散ベースのメソッドの最先端のパフォーマンスを達成し、事前トレーニングや補助モジュールなしで例外的なパフォーマンスを示す。 これはARモデルとの強い競争力を示し、画像からテキスト生成における拡散モデルの未解決の可能性を明らかにしている。

Diffusion models have exhibited remarkable capabilities in text-to-image generation. However, their performance in image-to-text generation, specifically image captioning, has lagged behind Auto-Regressive (AR) models, casting doubt on their applicability for such tasks. In this work, we revisit diffusion models, highlighting their capacity for holistic context modeling and parallel decoding. With these benefits, diffusion models can alleviate the inherent limitations of AR methods, including their slow inference speed, error propagation, and unidirectional constraints. Furthermore, we identify the prior underperformance of diffusion models stemming from the absence of an effective latent space for image-text alignment, and the discrepancy between continuous diffusion processes and discrete textual data. In response, we introduce a novel architecture, LaDiC, which utilizes a split BERT to create a dedicated latent space for captions and integrates a regularization module to manage varying text lengths. Our framework also includes a diffuser for semantic image-to-text conversion and a Back&Refine technique to enhance token interactivity during inference. LaDiC achieves state-of-the-art performance for diffusion-based methods on the MS COCO dataset with 38.2 BLEU@4 and 126.2 CIDEr, demonstrating exceptional performance without pre-training or ancillary modules. This indicates strong competitiveness with AR models, revealing the previously untapped potential of diffusion models in image-to-text generation.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# 信用金融計算

Confidential Federated Computations ( http://arxiv.org/abs/2404.10764v1 )

ライセンス: Link先を確認
Hubert Eichner, Daniel Ramage, Kallista Bonawitz, Dzmitry Huba, Tiziano Santoro, Brett McLarnon, Timon Van Overveldt, Nova Fallen, Peter Kairouz, Albert Cheu, Katharine Daly, Adria Gascon, Marco Gruteser, Brendan McMahan, (参考訳) Federated Learning and Analytics (FLA)は、デバイス上の機密データを処理するためのテクノロジプラットフォームによって広く採用されている。 しかし、基本的なFLAシステムには、プライバシー制限がある。それらは必ずしも差分プライバシー(DP)のような匿名化メカニズムを必要としておらず、潜在的に悪意のあるサービスプロバイダに対する限定的な保護を提供する。 現在、基本的なFLAシステムにDPを追加するには、各デバイスの更新に過剰なノイズを加えるか、そのメカニズムを正しく実装し、民営化された出力のみを使用する正直なサービスプロバイダを仮定するかが必要となる。 セキュアなマルチパーティ計算(SMPC)ベースの不要な集約は、サービスプロバイダの個々のユーザ更新へのアクセスを制限し、DPトレードオフを改善します。 本稿では,サーバ側の計算の機密性を確保し,外部で検証可能なプライバシ特性を提供し,プライベートなフェデレーション計算の堅牢性と信頼性を高めるために,信頼性の高い実行環境(TEE)とオープンソースを活用した新しいシステムアーキテクチャを提案する。

Federated Learning and Analytics (FLA) have seen widespread adoption by technology platforms for processing sensitive on-device data. However, basic FLA systems have privacy limitations: they do not necessarily require anonymization mechanisms like differential privacy (DP), and provide limited protections against a potentially malicious service provider. Adding DP to a basic FLA system currently requires either adding excessive noise to each device's updates, or assuming an honest service provider that correctly implements the mechanism and only uses the privatized outputs. Secure multiparty computation (SMPC) -based oblivious aggregations can limit the service provider's access to individual user updates and improve DP tradeoffs, but the tradeoffs are still suboptimal, and they suffer from scalability challenges and susceptibility to Sybil attacks. This paper introduces a novel system architecture that leverages trusted execution environments (TEEs) and open-sourcing to both ensure confidentiality of server-side computations and provide externally verifiable privacy properties, bolstering the robustness and trustworthiness of private federated computations.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# RefFusion:3次元シーン塗装のための参照適応拡散モデル

RefFusion: Reference Adapted Diffusion Models for 3D Scene Inpainting ( http://arxiv.org/abs/2404.10765v1 )

ライセンス: Link先を確認
Ashkan Mirzaei, Riccardo De Lutio, Seung Wook Kim, David Acuna, Jonathan Kelly, Sanja Fidler, Igor Gilitschenski, Zan Gojcic, (参考訳) ニューラルリコンストラクションアプローチは、3Dシーンに好まれる表現として急速に普及しているが、編集性に制限が課せられている。 本研究では,再構成されたシーンの一部を所望のコンテンツに一元的に置き換える作業である3Dシーンインペイントのアプローチを提案する。 シーンのインペイントは本質的に不適切な課題であり、不足したコンテンツを確実に置き換えるソリューションが多数存在する。 したがって、優れた塗布法は高品質な合成を可能にするだけでなく、高度な制御を可能にする必要がある。 本研究は,本研究の目的を達成するための効果的な手法として,塗布されたコンテンツに対する明示的な制御と参照画像を活用することに焦点を当てた。 具体的には,画像インペイント拡散モデルのマルチスケールパーソナライズに基づく新しい3Dインペイント手法であるRefFusionを紹介する。 パーソナライゼーションは、先行分布を目標シーンに効果的に適応させ、その結果、スコア蒸留目標の分散が小さくなり、よりシャープな詳細が得られる。 我々のフレームワークは、制御性を維持しながら、オブジェクト除去の最先端の成果を達成する。 さらに、オブジェクト挿入、シーンの露光、スパースビューの再構築など、他の下流タスクに対する定式化の一般化を実証する。

Neural reconstruction approaches are rapidly emerging as the preferred representation for 3D scenes, but their limited editability is still posing a challenge. In this work, we propose an approach for 3D scene inpainting -- the task of coherently replacing parts of the reconstructed scene with desired content. Scene inpainting is an inherently ill-posed task as there exist many solutions that plausibly replace the missing content. A good inpainting method should therefore not only enable high-quality synthesis but also a high degree of control. Based on this observation, we focus on enabling explicit control over the inpainted content and leverage a reference image as an efficient means to achieve this goal. Specifically, we introduce RefFusion, a novel 3D inpainting method based on a multi-scale personalization of an image inpainting diffusion model to the given reference view. The personalization effectively adapts the prior distribution to the target scene, resulting in a lower variance of score distillation objective and hence significantly sharper details. Our framework achieves state-of-the-art results for object removal while maintaining high controllability. We further demonstrate the generality of our formulation on other downstream tasks such as object insertion, scene outpainting, and sparse view reconstruction.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# RapidVol: センサレス2Dスキャンによる3次元超音波ボリュームの高速再構成

RapidVol: Rapid Reconstruction of 3D Ultrasound Volumes from Sensorless 2D Scans ( http://arxiv.org/abs/2404.10766v1 )

ライセンス: Link先を確認
Mark C. Eid, Pak-Hei Yeung, Madeleine K. Wyburd, João F. Henriques, Ana I. L. Namburete, (参考訳) 2次元のフリーハンド超音波検査は、特に産婦人科や産婦人科において、最もよく用いられる医療画像の1つである。 しかし、これは本質的に3D解剖学の2次元断面ビューのみを捉え、貴重な文脈情報を失う。 高価な複雑な3D超音波スキャナを必要とする代わりに、機械学習を用いて2Dスキャンから3Dボリュームを構築することができる。 しかし、これは通常、長い計算時間を必要とする。 本稿では,スライス・ツー・ボリューム超音波再構成を高速化するニューラル表現フレームワークであるRapidVolを提案する。 テンソルランク分解を用いて、典型的な3次元体積を3次元平面の集合に分解し、代わりに小さなニューラルネットワークを格納する。 地上の真理(または推定)の3D位置と向き(目的)を持つ2次元超音波スキャンのセットは、完全な3D再構成を形成するのに必要なもの全てである。 再建は、実際の胎児脳スキャンから形成され、その後、新しい横断的なビューを要求することによって評価される。 完全に暗黙的な表現(例えばニューラルラディアンス場)に基づく従来の手法と比較すると,提案手法はより3倍速く,精度は46%高く,不正確なポーズがより堅牢である。 また、スクラッチからではなく構造体から再構築することで、さらなるスピードアップが可能となる。

Two-dimensional (2D) freehand ultrasonography is one of the most commonly used medical imaging modalities, particularly in obstetrics and gynaecology. However, it only captures 2D cross-sectional views of inherently 3D anatomies, losing valuable contextual information. As an alternative to requiring costly and complex 3D ultrasound scanners, 3D volumes can be constructed from 2D scans using machine learning. However this usually requires long computational time. Here, we propose RapidVol: a neural representation framework to speed up slice-to-volume ultrasound reconstruction. We use tensor-rank decomposition, to decompose the typical 3D volume into sets of tri-planes, and store those instead, as well as a small neural network. A set of 2D ultrasound scans, with their ground truth (or estimated) 3D position and orientation (pose) is all that is required to form a complete 3D reconstruction. Reconstructions are formed from real fetal brain scans, and then evaluated by requesting novel cross-sectional views. When compared to prior approaches based on fully implicit representation (e.g. neural radiance fields), our method is over 3x quicker, 46% more accurate, and if given inaccurate poses is more robust. Further speed-up is also possible by reconstructing from a structural prior rather than from scratch.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# 局所解析関数上のプッシュフォワードの有限次元近似と最小二乗多項式のトランケーション

Finite-dimensional approximations of push-forwards on locally analytic functionals and truncation of least-squares polynomials ( http://arxiv.org/abs/2404.10769v1 )

ライセンス: Link先を確認
Isao Ishikawa, (参考訳) 本稿では, 有限離散データから解析写像を解析し, 多項式近似の基礎となる数学的機械を多変量条件下で最小二乗で解明する理論的枠組みを提案する。 我々のアプローチは、解析写像そのものを直接扱うのではなく、局所解析関数の空間上のプッシュフォワードを考えることである。 フーリエ・ボレル変換とフォック空間の理論を用いて、有限離散データからプッシュフォワードの適切な有限次元近似を可能にする方法論を確立する。 さらに、厳密な収束の結果を収束率で証明する。 応用として、最小二乗多項式ではなく、解析関数を近似し、さらにデータ分布の支持を超えた近似を可能にする高次項を解いた多項式であることが証明される。 この理論の利点の1つは、線形代数演算をプッシュフォワードの有限次元近似に適用できることである。 これを利用して、通常の微分方程式のフローマップの有限データから解析ベクトル場を近似する手法の収束性を証明する。

This paper introduces a theoretical framework for investigating analytic maps from finite discrete data, elucidating mathematical machinery underlying the polynomial approximation with least-squares in multivariate situations. Our approach is to consider the push-forward on the space of locally analytic functionals, instead of directly handling the analytic map itself. We establish a methodology enabling appropriate finite-dimensional approximation of the push-forward from finite discrete data, through the theory of the Fourier--Borel transform and the Fock space. Moreover, we prove a rigorous convergence result with a convergence rate. As an application, we prove that it is not the least-squares polynomial, but the polynomial obtained by truncating its higher-degree terms, that approximates analytic functions and further allows for approximation beyond the support of the data distribution. One advantage of our theory is that it enables us to apply linear algebraic operations to the finite-dimensional approximation of the push-forward. Utilizing this, we prove the convergence of a method for approximating an analytic vector field from finite data of the flow map of an ordinary differential equation.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# TENG: ディープニューラルネットでPDEを解くための時間進化型自然勾配

TENG: Time-Evolving Natural Gradient for Solving PDEs with Deep Neural Net ( http://arxiv.org/abs/2404.10771v1 )

ライセンス: Link先を確認
Zhuo Chen, Jacob McCarran, Esteban Vizcaino, Marin Soljačić, Di Luo, (参考訳) 偏微分方程式 (Partial differential equation, PDE) は、科学と工学における力学系をモデル化するための道具である。 ニューラルネットワークの出現は、特に初期値問題において、精度の課題は持続するが、これらの複雑さに取り組むための大きな変化を引き起こしている。 本稿では、時間依存の変動原理と最適化に基づく時間積分を一般化し、自然勾配最適化を活用し、ニューラルネットワークベースのPDEソリューションで高い精度を得るための$\textit{Time-Evolving Natural Gradient (TENG)$を紹介する。 私たちの包括的開発には、TENG-Eulerのようなアルゴリズムと、TENG-Heunのような高階の亜種が含まれています。 TENGの有効性は、現在の先行手法を超越し、熱方程式、アレン・カーン方程式、バーガース方程式を含むPDEのスペクトルにおけるステップバイステップ最適化において機械精度を達成することでさらに検証される。

Partial differential equations (PDEs) are instrumental for modeling dynamical systems in science and engineering. The advent of neural networks has initiated a significant shift in tackling these complexities though challenges in accuracy persist, especially for initial value problems. In this paper, we introduce the $\textit{Time-Evolving Natural Gradient (TENG)}$, generalizing time-dependent variational principles and optimization-based time integration, leveraging natural gradient optimization to obtain high accuracy in neural-network-based PDE solutions. Our comprehensive development includes algorithms like TENG-Euler and its high-order variants, such as TENG-Heun, tailored for enhanced precision and efficiency. TENG's effectiveness is further validated through its performance, surpassing current leading methods and achieving machine precision in step-by-step optimizations across a spectrum of PDEs, including the heat equation, Allen-Cahn equation, and Burgers' equation.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# ガウスの沖積場:非有界環境における効率的かつコンパクトな表面再構成

Gaussian Opacity Fields: Efficient and Compact Surface Reconstruction in Unbounded Scenes ( http://arxiv.org/abs/2404.10772v1 )

ライセンス: Link先を確認
Zehao Yu, Torsten Sattler, Andreas Geiger, (参考訳) 近年,3D Gaussian Splatting (3DGS) は,高解像度画像をリアルタイムにレンダリングしながら,目覚ましいビュー合成結果を示した。 しかし、3Dガウスを表面再構成に利用することは、3Dガウスの明示的で非連結な性質のために大きな課題となる。 本研究では,非有界シーンにおける効率,高品質,コンパクトな表面再構成のための新しいアプローチであるGOF(Gaussian Opacity Fields)を提案する。 GOFは,ポアソン再構成やTSDF融合を使わずに,3次元ガウシアンからの直接幾何学的抽出が可能な3次元ガウシアンの3次元ボリュームレンダリングから派生した。 我々は、ガウス面の表面正規化を線-ガウス面の正規化として近似し、幾何を著しく拡張する正規化の適用を可能にする。 さらに, 3次元ガウスから四面体格子を誘導し, シーンの複雑さに適応する, 進行する四面体を用いた効率的な幾何抽出法を開発した。 本評価の結果,GOFは表面再構成や新しいビュー合成において既存の3DGS法を超越していることがわかった。 さらに、品質とスピードの両面で、ニューラルネットワークの暗黙の手法と比較して、好意的に、あるいは、さらに優れています。

Recently, 3D Gaussian Splatting (3DGS) has demonstrated impressive novel view synthesis results, while allowing the rendering of high-resolution images in real-time. However, leveraging 3D Gaussians for surface reconstruction poses significant challenges due to the explicit and disconnected nature of 3D Gaussians. In this work, we present Gaussian Opacity Fields (GOF), a novel approach for efficient, high-quality, and compact surface reconstruction in unbounded scenes. Our GOF is derived from ray-tracing-based volume rendering of 3D Gaussians, enabling direct geometry extraction from 3D Gaussians by identifying its levelset, without resorting to Poisson reconstruction or TSDF fusion as in previous work. We approximate the surface normal of Gaussians as the normal of the ray-Gaussian intersection plane, enabling the application of regularization that significantly enhances geometry. Furthermore, we develop an efficient geometry extraction method utilizing marching tetrahedra, where the tetrahedral grids are induced from 3D Gaussians and thus adapt to the scene's complexity. Our evaluations reveal that GOF surpasses existing 3DGS-based methods in surface reconstruction and novel view synthesis. Further, it compares favorably to, or even outperforms, neural implicit methods in both quality and speed.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# MiniCheck: グラウンドドキュメンテーション上でのLLMの効率的なFact-Checking

MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents ( http://arxiv.org/abs/2404.10774v1 )

ライセンス: Link先を確認
Liyan Tang, Philippe Laban, Greg Durrett, (参考訳) LLMの出力がエビデンスで根拠付けられるかどうかを認識することは、NLPにおける多くのタスクの中心である:検索強化生成、要約、文書地上対話など。 この種の「ファクトチェック」への現在のアプローチは、LLMを使用してモデル生成の各部品を潜在的な証拠に対して検証することに基づいている。 しかし、このプロセスは非常に計算コストがかかり、単一の応答をチェックするのに多くのLCMを呼び出す必要がある。 本稿では,GPT-4レベルの性能を持つ小型モデルを400倍のコストで構築する方法を示す。 我々はGPT-4を用いて合成トレーニングデータを構築し、構造化された生成手順を用いて現実的かつ挑戦的な事実エラーの事例を作成する。 このデータに基づくトレーニングは、モデルにクレーム内の各事実をチェックし、文間で情報の合成を認識するように教える。 評価のために,既存のデータセットをLCM-AggreFactベンチマークに統一する。 我々の最良のシステム MiniCheck-FT5 (770Mパラメータ) は、同等の大きさの全てのシステムより優れ、GPT-4精度に達する。 LLM-AggreFact、データ合成のためのコード、およびモデルをリリースする。

Recognizing if LLM output can be grounded in evidence is central to many tasks in NLP: retrieval-augmented generation, summarization, document-grounded dialogue, and more. Current approaches to this kind of "fact-checking" are based on verifying each piece of a model generation against potential evidence using an LLM. However, this process can be very computationally expensive, requiring many calls to LLMs to check a single response. In this work, we show how to build small models that have GPT-4-level performance but for 400x lower cost. We do this by constructing synthetic training data with GPT-4, which involves creating realistic yet challenging instances of factual errors via a structured generation procedure. Training on this data teaches models to check each fact in the claim and recognize synthesis of information across sentences. For evaluation, we unify pre-existing datasets into a benchmark LLM-AggreFact, collected from recent work on fact-checking and grounding LLM generations. Our best system MiniCheck-FT5 (770M parameters) outperforms all systems of comparable size and reaches GPT-4 accuracy. We release LLM-AggreFact, code for data synthesis, and models.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# COMBO:マルチエージェント協調のための構成世界モデル

COMBO: Compositional World Models for Embodied Multi-Agent Cooperation ( http://arxiv.org/abs/2404.10775v1 )

ライセンス: Link先を確認
Hongxin Zhang, Zeyuan Wang, Qiushi Lyu, Zheyuan Zhang, Sunli Chen, Tianmin Shu, Yilun Du, Chuang Gan, (参考訳) 本稿では,非中央集権型エージェントが世界の部分的な自我中心的な視点のみを前提として協力しなくてはならない,多エージェント連携の具体的課題について考察する。 この設定を効果的に計画するには、単一エージェントシナリオにおける世界ダイナミクスの学習とは対照的に、世界の部分的な自我中心的な視覚的観察のみを与えられた任意の数のエージェントの行動に条件付けられた世界ダイナミクスをシミュレートする必要がある。 この部分観測可能性の問題に対処するため,我々はまず生成モデルを訓練し,部分的な自我中心の観測から世界全体の状態を推定する。 そこで本研究では,複数エージェントの自然な構成可能な関節動作を分解し,合成的に映像を生成することで,複数エージェント協調のための構成的世界モデルを構築することを提案する。 この構成的世界モデルを利用して、視覚言語モデルと組み合わせて、他のエージェントの行動を推測することで、これらのモジュールの統合とオンライン協調計画の容易化を図ることができる。 提案手法の有効性を評価するため,3DWorldシミュレータを用いて,2-4エージェントを用いた実験を行った。 その結果、我々の構成的世界モデルの有効性が示され、そのフレームワークは、様々なタスクと任意の数のエージェントをまたがって、様々なエージェントと効率的に協力し、提案するフレームワークの将来性を示す。 さらなるビデオはhttps://vis-www.cs.umass.edu/combo/.com/で見ることができる。

In this paper, we investigate the problem of embodied multi-agent cooperation, where decentralized agents must cooperate given only partial egocentric views of the world. To effectively plan in this setting, in contrast to learning world dynamics in a single-agent scenario, we must simulate world dynamics conditioned on an arbitrary number of agents' actions given only partial egocentric visual observations of the world. To address this issue of partial observability, we first train generative models to estimate the overall world state given partial egocentric observations. To enable accurate simulation of multiple sets of actions on this world state, we then propose to learn a compositional world model for multi-agent cooperation by factorizing the naturally composable joint actions of multiple agents and compositionally generating the video. By leveraging this compositional world model, in combination with Vision Language Models to infer the actions of other agents, we can use a tree search procedure to integrate these modules and facilitate online cooperative planning. To evaluate the efficacy of our methods, we create two challenging embodied multi-agent long-horizon cooperation tasks using the ThreeDWorld simulator and conduct experiments with 2-4 agents. The results show our compositional world model is effective and the framework enables the embodied agents to cooperate efficiently with different agents across various tasks and an arbitrary number of agents, showing the promising future of our proposed framework. More videos can be found at https://vis-www.cs.umass.edu/combo/.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# 逆フィードバックからのコンテキストデュエル帯域に対する近似アルゴリズム

Nearly Optimal Algorithms for Contextual Dueling Bandits from Adversarial Feedback ( http://arxiv.org/abs/2404.10776v1 )

ライセンス: Link先を確認
Qiwei Di, Jiafan He, Quanquan Gu, (参考訳) 人間のフィードバックから学ぶことは、大きな言語モデル(LLM)のような生成モデルを調整する上で重要な役割を果たす。 しかし、このアプローチの有効性は、望ましくないあるいは有害な方向に出力を操作するために意図的に誤解を招く好みを与える敵の影響を受け得る。 この問題に対処するために,本研究では,ドメイン内の特定のモデルについて検討する。-コンテキスト・デュエル・バンディット(contextual dueling bandits)と,正の選好ラベルを敵によって反転させることができる対向フィードバックを持つ。 本稿では,不確実性重み付き最大推定に基づく頑健なコンテキストデュエルバンドイット(\algo)を提案する。 我々のアルゴリズムは、$\tilde O(d\sqrt{T}+dC)$ regret bound, where $T$ is the number of rounds, $d$ is the dimension of the context, $ 0 \le C \le T$ is the total number of adversarial feedback。 我々はまた、(C=0$)逆のフィードバックのあるシナリオとないシナリオの両方において、後悔の限界がほぼ最適であることを示すために、低い境界を証明している。 さらに,提案アルゴリズムを様々な種類の逆フィードバックに対して評価する実験を行った。 実験結果から, 対向フィードバックの存在下では, 最先端のデュエルバンディットアルゴリズムよりも優れていることが示された。

Learning from human feedback plays an important role in aligning generative models, such as large language models (LLM). However, the effectiveness of this approach can be influenced by adversaries, who may intentionally provide misleading preferences to manipulate the output in an undesirable or harmful direction. To tackle this challenge, we study a specific model within this problem domain--contextual dueling bandits with adversarial feedback, where the true preference label can be flipped by an adversary. We propose an algorithm namely robust contextual dueling bandit (\algo), which is based on uncertainty-weighted maximum likelihood estimation. Our algorithm achieves an $\tilde O(d\sqrt{T}+dC)$ regret bound, where $T$ is the number of rounds, $d$ is the dimension of the context, and $ 0 \le C \le T$ is the total number of adversarial feedback. We also prove a lower bound to show that our regret bound is nearly optimal, both in scenarios with and without ($C=0$) adversarial feedback. Additionally, we conduct experiments to evaluate our proposed algorithm against various types of adversarial feedback. Experimental results demonstrate its superiority over the state-of-the-art dueling bandit algorithms in the presence of adversarial feedback.
翻訳日:2024-04-17 15:45:38 公開日:2024-04-16
# CoBra:ロバスト弱監視セマンティックセグメンテーションのための補足分枝融合クラスとセマンティック知識

CoBra: Complementary Branch Fusing Class and Semantic Knowledge for Robust Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2403.08801v5 )

ライセンス: Link先を確認
Woojung Han, Seil Kang, Kyobin Choo, Seong Jae Hwang, (参考訳) セグメンテーションのための画像レベルのクラス知識、すなわち、画像レベルのWeakly Supervised Semantic Segmentation (WSSS)から派生した意味論的に正確な擬似マスクを活用することは依然として困難である。 CNNを用いたクラスアクティベーションマップ(CAM)は、WSSSの成功に着実に貢献しているが、結果として得られるアクティベーションマップは、しばしばクラス固有の部分(例えば、人間の顔のみ)に焦点を絞っている。 一方、視覚変換器(ViT)を用いた最近の研究は、セマンティック部分を捕捉する自己認識機構に基づく有望な結果を示しているが、完全なクラス固有の詳細(例えば、人間の全身部分だけでなく、近くに犬と一緒にいるもの)を捉えることに失敗している。 本研究では、クラス(CNN)とセマンティック(ViT)をそれぞれのブランチに有意義な補完的知識を提供する2つの異なるアーキテクチャからなる、新しい二重分岐フレームワークであるComplementary Branch(CoBra)を提案する。 特に、CNNブランチのクラス・アウェア・プロジェクション(CAP)とViTブランチのセマンティック・アウェア・プロジェクション(SAP)を学び、補完的な知識を明確に融合させ、新たなタイプのパッチレベルの監視を容易にする。 我々のモデルはCoBraを通じてCNNとViTの補完的な出力を融合し、クラス情報とセマンティック情報の両方を効果的に統合する堅牢な擬似マスクを生成する。 CNNとViTはPASCAL VOC 2012データセット上でどのように相互に補完するかを質的に定量的に検証し、最先端のWSSS結果を示している。 これは、我々のモデルによって生成されるマスクだけでなく、これらのマスクを擬似ラベルとして利用することによって得られるセグメンテーション結果も含まれる。

Leveraging semantically precise pseudo masks derived from image-level class knowledge for segmentation, namely image-level Weakly Supervised Semantic Segmentation (WSSS), still remains challenging. While Class Activation Maps (CAMs) using CNNs have steadily been contributing to the success of WSSS, the resulting activation maps often narrowly focus on class-specific parts (e.g., only face of human). On the other hand, recent works based on vision transformers (ViT) have shown promising results based on their self-attention mechanism to capture the semantic parts but fail in capturing complete class-specific details (e.g., entire body parts of human but also with a dog nearby). In this work, we propose Complementary Branch (CoBra), a novel dual branch framework consisting of two distinct architectures which provide valuable complementary knowledge of class (from CNN) and semantic (from ViT) to each branch. In particular, we learn Class-Aware Projection (CAP) for the CNN branch and Semantic-Aware Projection (SAP) for the ViT branch to explicitly fuse their complementary knowledge and facilitate a new type of extra patch-level supervision. Our model, through CoBra, fuses CNN and ViT's complementary outputs to create robust pseudo masks that integrate both class and semantic information effectively. Extensive experiments qualitatively and quantitatively investigate how CNN and ViT complement each other on the PASCAL VOC 2012 dataset, showing a state-of-the-art WSSS result. This includes not only the masks generated by our model, but also the segmentation results derived from utilizing these masks as pseudo labels.
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# Octopus v2:スーパーエージェントのオンデバイス言語モデル

Octopus v2: On-device language model for super agent ( http://arxiv.org/abs/2404.01744v5 )

ライセンス: Link先を確認
Wei Chen, Zhiyuan Li, (参考訳) 言語モデルは様々なソフトウェアアプリケーション、特に自動ワークフローに関連するタスクにおいて有効性を示している。 これらのモデルには、AIエージェントを作成する上で不可欠な機能を呼び出す重要な能力がある。 クラウド環境での大規模言語モデルのパフォーマンスは高いが、プライバシやコストに関する懸念に関係していることが多い。 関数呼び出しの現在のオンデバイスモデルには、レイテンシと正確性がある。 本研究では,20億のパラメータを持つデバイス上でのモデルを用いて,GPT-4の性能を精度とレイテンシの両方で上回り,コンテキスト長を95%削減する手法を提案する。 Llama-7BをRAGベースの関数呼び出し機構で比較すると,レイテンシを35倍に向上する。 この方法では,実環境におけるさまざまなエッジデバイスへのデプロイに適したレベルへの遅延を低減し,実環境アプリケーションのパフォーマンス要件に適合する。

Language models have shown effectiveness in a variety of software applications, particularly in tasks related to automatic workflow. These models possess the crucial ability to call functions, which is essential in creating AI agents. Despite the high performance of large-scale language models in cloud environments, they are often associated with concerns over privacy and cost. Current on-device models for function calling face issues with latency and accuracy. Our research presents a new method that empowers an on-device model with 2 billion parameters to surpass the performance of GPT-4 in both accuracy and latency, and decrease the context length by 95\%. When compared to Llama-7B with a RAG-based function calling mechanism, our method enhances latency by 35-fold. This method reduces the latency to levels deemed suitable for deployment across a variety of edge devices in production environments, aligning with the performance requisites for real-world applications.
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# マルチモーダル設定における深部生成データ同化

Deep Generative Data Assimilation in Multimodal Setting ( http://arxiv.org/abs/2404.06665v2 )

ライセンス: Link先を確認
Yongquan Qu, Juan Nathaniel, Shuolin Li, Pierre Gentine, (参考訳) 物理知識とデータのロバストな統合は、地球系モデルのような計算シミュレーションを改善する鍵となる。 データ同化は、リモートセンシング画像や地上局計測を含む、不確実な定量化を含む、モデル出力を観測で校正するための体系的なフレームワークを提供するため、この目標を達成するために不可欠である。 カルマンフィルタや変分法を含む従来の手法は本質的に線形およびガウス的仮定の単純化に依存しており、計算コストがかかる。 それでも、計算科学の多くの分野でデータ駆動手法が急速に採用され、従来のデータ同化とディープラーニング、特に生成モデルがエミュレートされる可能性がある。 特に拡散に基づく確率的フレームワークは、データ同化原理と大きな重複があり、どちらもベイズ逆フレームワークを用いてサンプルの条件付き生成を可能にする。 これらのモデルは、テキスト条件付き画像生成や画像制御ビデオ合成において顕著な成功を収めている。 同様に、観測条件付き状態キャリブレーションとしてデータ同化をフレーム化することもできる。 本研究では,マルチモーダル・セッティングにおけるスコアベースラテント・アシミレーション(SLAMS)を提案する。 具体的には、気象観測所のデータと元衛星画像とを同化して、垂直温度分布を世界規模で校正する。 広範なアブレーションを通じて、SLAMSは低解像度、ノイズ、スパースなデータ設定でも堅牢であることを示す。 我々の知る限りでは、我々の研究は、実世界のデータセットを用いたマルチモーダルデータ同化に、初めて深層生成フレームワークを適用している。 私たちのコードは、https://github.com/yongquan-qu/SLAMSで利用可能です。

Robust integration of physical knowledge and data is key to improve computational simulations, such as Earth system models. Data assimilation is crucial for achieving this goal because it provides a systematic framework to calibrate model outputs with observations, which can include remote sensing imagery and ground station measurements, with uncertainty quantification. Conventional methods, including Kalman filters and variational approaches, inherently rely on simplifying linear and Gaussian assumptions, and can be computationally expensive. Nevertheless, with the rapid adoption of data-driven methods in many areas of computational sciences, we see the potential of emulating traditional data assimilation with deep learning, especially generative models. In particular, the diffusion-based probabilistic framework has large overlaps with data assimilation principles: both allows for conditional generation of samples with a Bayesian inverse framework. These models have shown remarkable success in text-conditioned image generation or image-controlled video synthesis. Likewise, one can frame data assimilation as observation-conditioned state calibration. In this work, we propose SLAMS: Score-based Latent Assimilation in Multimodal Setting. Specifically, we assimilate in-situ weather station data and ex-situ satellite imagery to calibrate the vertical temperature profiles, globally. Through extensive ablation, we demonstrate that SLAMS is robust even in low-resolution, noisy, and sparse data settings. To our knowledge, our work is the first to apply deep generative framework for multimodal data assimilation using real-world datasets; an important step for building robust computational simulators, including the next-generation Earth system models. Our code is available at: https://github.com/yongquan-qu/SLAMS
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# ゼロ・ロス光子多重化インスパイアプロトコルによる分離可能な状態間の絡み合い分布

Entanglement distribution through separable states via a zero-added-loss photon multiplexing inspired protocol ( http://arxiv.org/abs/2404.07107v2 )

ライセンス: Link先を確認
Conall J. Campbell, Adam G. Hawkins, Giorgio Zicari, Mauro Paternostro, Hannah McAleese, (参考訳) 最近提案されたゼロロス多重化(ZALM)源は,SPDC源よりも絡み合い分布の効率が高く,地上リンクと地上リンクの両方を用いて行うことができる。 我々は、ZALMアーキテクチャの柔軟性を、代替のエンタングルメント分布プロトコルに適用できることを実証する。 リソースとして絡み合いを使わずに、遠方の関係者間で絡み合いを発生させることができる反直感的な結果に着目し、分離可能な状態によるメモリへの絡み合い分布の2つのプロトコルを解析する。 それらをZALMセットアップでモデル化し、通信チャネルと記憶の両方におけるノイズの影響を考察する。 これにより、ネットワークの雑音条件を考慮して、最も高い絡み合いに対して、最適なプロトコルを識別する。

The recently proposed zero-added-loss multiplexing (ZALM) source of entangled photons enables higher efficiency in entanglement distribution than SPDC sources and can be carried out using both space-to-ground and ground-to-ground links. We demonstrate the flexibility of ZALM architectures to be adapted to alternative entanglement distribution protocols. Focusing on the counter-intuitive result that entanglement can be generated between distant parties without using any entanglement as a resource, we analyze two protocols for entanglement distribution to memories via separable states. Modelling them in a ZALM setup, we consider the effects of noise both in the communication channels and in the memories. We thereby identify the optimal protocol to use, with respect to the highest entanglement generated, given the noise conditions of the network.
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# GPTモデルの学習データへの影響について

On Training Data Influence of GPT Models ( http://arxiv.org/abs/2404.07840v2 )

ライセンス: Link先を確認
Qingyi Liu, Yekun Chai, Shuohuan Wang, Yu Sun, Qiwei Peng, Keze Wang, Hua Wu, (参考訳) 生成言語モデルの急速な進歩の中で、トレーニングデータがどのようにGPTモデルの性能を形作るかの研究が、いまだに進んでいる。 本稿では, GPTモデルのトレーニング力学に及ぼすトレーニング例の影響を評価するために, 模擬シミュレーションを利用した新しい手法である GPTfluenceを提案する。 我々のアプローチは、個々のトレーニングインスタンスが、目標とするテストポイントにおける損失やその他の重要な指標などのパフォーマンストラジェクトリに与える影響をトレースするだけでなく、GPTモデルにおける様々なトレーニングシナリオにわたる既存のメソッドと、ダウンストリームタスクの範囲で1400万から280億のパラメータを網羅的に比較することを可能にする。 GPTfluenceは、新しいデータへの一般化に苦慮する以前の手法とは対照的に、トレーニングダイナミクスのパラメータ化シミュレーションを導入し、目に見えないトレーニングデータに対して堅牢な一般化能力を実証している。 この適応性は、自然言語の理解と生成におけるタスクにまたがる、微調整と命令調整の両方のシナリオで明らかである。 コードとデータを公開します。

Amidst the rapid advancements in generative language models, the investigation of how training data shapes the performance of GPT models is still emerging. This paper presents GPTfluence, a novel approach that leverages a featurized simulation to assess the impact of training examples on the training dynamics of GPT models. Our approach not only traces the influence of individual training instances on performance trajectories, such as loss and other key metrics, on targeted test points but also enables a comprehensive comparison with existing methods across various training scenarios in GPT models, ranging from 14 million to 2.8 billion parameters, across a range of downstream tasks. Contrary to earlier methods that struggle with generalization to new data, GPTfluence introduces a parameterized simulation of training dynamics, demonstrating robust generalization capabilities to unseen training data. This adaptability is evident across both fine-tuning and instruction-tuning scenarios, spanning tasks in natural language understanding and generation. We will make our code and data publicly available.
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# LaVy: ベトナムのマルチモーダル大言語モデル

LaVy: Vietnamese Multimodal Large Language Model ( http://arxiv.org/abs/2404.07922v3 )

ライセンス: Link先を確認
Chi Tran, Huong Le Thanh, (参考訳) LLM(Large Language Models)とMLLM(Multimodal Large Language Models)は、複雑な推論と言語理解において印象的な能力を持つ嵐によって世界を席巻している。 一方、ベトナムの大規模言語モデルに関連する多くの作品があり、マルチモーダリティにおける高品質な資源の欠如はベトナムのMLLMの進歩を妨げている。 本稿では,現在最先端のベトナム語MLLMであるLaVyを導入することでこの問題に対処し,また,MLLMのベトナム語視覚言語タスクに対する理解を評価するためのLaVy-Benchベンチマークも導入する。 私たちのプロジェクトはhttps://github.com/baochi0212/LaVyで公開されています。

Large Language Models (LLMs) and Multimodal Large language models (MLLMs) have taken the world by storm with impressive abilities in complex reasoning and linguistic comprehension. Meanwhile there are plethora of works related to Vietnamese Large Language Models, the lack of high-quality resources in multimodality limits the progress of Vietnamese MLLMs. In this paper, we pioneer in address this by introducing LaVy, a state-of-the-art Vietnamese MLLM, and we also introduce LaVy-Bench benchmark designated for evaluating MLLMs's understanding on Vietnamese visual language tasks. Our project is public at https://github.com/baochi0212/LaVy
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# RLHFのデータセットリセットポリシー最適化

Dataset Reset Policy Optimization for RLHF ( http://arxiv.org/abs/2404.08495v3 )

ライセンス: Link先を確認
Jonathan D. Chang, Wenhao Zhan, Owen Oertell, Kianté Brantley, Dipendra Misra, Jason D. Lee, Wen Sun, (参考訳) Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative model, has been produced impressive model such as GPT-4 and Claude3 Opus。 オフラインの選好データセットから報酬モデルを学習し、学習した報奨モデルを最適化するためにオンラインRLを実行する。 本稿では,リセットのアイデアを活用することで,証明可能な保証付きRLHFアルゴリズムを提案する。 オフラインの嗜好データセットが情報的状態(ラベル付け者が好むデータ)を提供するという事実により、我々の新しいアルゴリズムであるデータセットリセットポリシー最適化(DR-PO)は、既存のオフラインの嗜好データセットをデータセットリセットを介してオンラインのポリシートレーニング手順に統合する。 理論的には, DR-POは, 一般関数近似の下でのオフラインデータセットでカバーされる任意のポリシーと同程度に, 有限サンプルの複雑さで実行できることが示される。 実験では,TL;DR要約とHHデータセットの両方において,GPT4の勝利率の基準の下でDR-POの生成がPPO(Proximal Policy Optimization)とDPO(Direction Preference Optimization)より優れていることを示した。 この作業のコードはhttps://github.com/Cornell-RL/drpoにある。

Reinforcement Learning (RL) from Human Preference-based feedback is a popular paradigm for fine-tuning generative models, which has produced impressive models such as GPT-4 and Claude3 Opus. This framework often consists of two steps: learning a reward model from an offline preference dataset followed by running online RL to optimize the learned reward model. In this work, leveraging the idea of reset, we propose a new RLHF algorithm with provable guarantees. Motivated by the fact that offline preference dataset provides informative states (i.e., data that is preferred by the labelers), our new algorithm, Dataset Reset Policy Optimization (DR-PO), integrates the existing offline preference dataset into the online policy training procedure via dataset reset: it directly resets the policy optimizer to the states in the offline dataset, instead of always starting from the initial state distribution. In theory, we show that DR-PO learns to perform at least as good as any policy that is covered by the offline dataset under general function approximation with finite sample complexity. In experiments, we demonstrate that on both the TL;DR summarization and the Anthropic Helpful Harmful (HH) dataset, the generation from DR-PO is better than that from Proximal Policy Optimization (PPO) and Direction Preference Optimization (DPO), under the metric of GPT4 win-rate. Code for this work can be found at https://github.com/Cornell-RL/drpo.
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# E3: 限られたデータを用いた合成画像検出器を新しい発電機に適応するためのエキスパート組込み器の組み立て

E3: Ensemble of Expert Embedders for Adapting Synthetic Image Detectors to New Generators Using Limited Data ( http://arxiv.org/abs/2404.08814v2 )

ライセンス: Link先を確認
Aref Azizpour, Tai D. Nguyen, Manil Shrestha, Kaidi Xu, Edward Kim, Matthew C. Stamm, (参考訳) 生成AIが急速に進歩するにつれて、新しい合成画像生成装置が急速に出現し続けている。 従来の検出方法は、これらのジェネレータに適応する上で2つの大きな課題に直面している。新しい技術からの合成画像の法医学的痕跡は、トレーニング中に学んだものとは大きく異なり、新しいジェネレータのデータへのアクセスは、しばしば制限される。 これらの課題に対処するために,合成画像検出器を更新するための新しい連続学習フレームワークであるEnsemble of Expert Embedders (E3)を紹介する。 E3は、最小限のトレーニングデータを使用して、新しく登場したジェネレータからの画像の正確な検出を可能にする。 当社のアプローチでは,まずトランスファーラーニングを用いて,特定の発電機の法医学的トレースを専門とする,一連の専門的埋め込み器を開発する。 そして、すべての埋め込みは、専門家知識融合ネットワークによって共同で分析され、正確で信頼性の高い検出決定を生成する。 実験により,E3は,合成画像検出に特化して開発されたものを含め,既存の連続学習法よりも優れていることが示された。

As generative AI progresses rapidly, new synthetic image generators continue to emerge at a swift pace. Traditional detection methods face two main challenges in adapting to these generators: the forensic traces of synthetic images from new techniques can vastly differ from those learned during training, and access to data for these new generators is often limited. To address these issues, we introduce the Ensemble of Expert Embedders (E3), a novel continual learning framework for updating synthetic image detectors. E3 enables the accurate detection of images from newly emerged generators using minimal training data. Our approach does this by first employing transfer learning to develop a suite of expert embedders, each specializing in the forensic traces of a specific generator. Then, all embeddings are jointly analyzed by an Expert Knowledge Fusion Network to produce accurate and reliable detection decisions. Our experiments demonstrate that E3 outperforms existing continual learning methods, including those developed specifically for synthetic image detection.
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# LoopGaussian:ユーレリア運動場による多視点画像による3Dシネマグラフ作成

LoopGaussian: Creating 3D Cinemagraph with Multi-view Images via Eulerian Motion Field ( http://arxiv.org/abs/2404.08966v2 )

ライセンス: Link先を確認
Jiyang Li, Lechao Cheng, Zhangye Wang, Tingting Mu, Jingxuan He, (参考訳) シネマグラフ(Cinemagraph)は、静止画と微妙な動きの要素を組み合わせたユニークなビジュアルメディアである。 しかし、最近の作品によって生成されたビデオの大部分は深度情報がなく、2次元画像空間の制約に制限されている。 本稿では,3次元ガウシアンスプラッティング(3D-GS)により達成された新規ビュー合成(NVS)の分野における顕著な進歩に着想を得て,ループガウシアンを3次元ガウシアンモデリングを用いて2次元画像空間から3次元空間へ高次化することを提案する。 そこで我々はまず3D-GS法を用いて静的シーンの多視点画像から3次元ガウス点雲を再構成し,物体変形によるぼやけやアーティファクトを防止するために形状規則化用語を取り入れた。 次に、3D Gaussian に適したオートエンコーダを採用して特徴空間に投影します。 シーンの局所的な連続性を維持するため,得られた特徴に基づいてクラスタリングを行うSuperGaussianを考案した。 クラスタ間の類似性を計算し、2段階推定法を用いることで、シーン全体の速度を記述するユーレリア運動場を導出する。 3次元ガウス点は推定ユーレアン運動場内を移動する。 双方向アニメーション技術により、自然かつシームレスにループ可能なダイナミックスを示す3Dシネマグラフを最終的に生成する。 実験の結果,提案手法の有効性を検証し,高品質で視覚的に魅力的なシーン生成を実証した。 このプロジェクトはhttps://pokerlishao.github.io/LoopGaussian/で公開されている。

Cinemagraph is a unique form of visual media that combines elements of still photography and subtle motion to create a captivating experience. However, the majority of videos generated by recent works lack depth information and are confined to the constraints of 2D image space. In this paper, inspired by significant progress in the field of novel view synthesis (NVS) achieved by 3D Gaussian Splatting (3D-GS), we propose LoopGaussian to elevate cinemagraph from 2D image space to 3D space using 3D Gaussian modeling. To achieve this, we first employ the 3D-GS method to reconstruct 3D Gaussian point clouds from multi-view images of static scenes,incorporating shape regularization terms to prevent blurring or artifacts caused by object deformation. We then adopt an autoencoder tailored for 3D Gaussian to project it into feature space. To maintain the local continuity of the scene, we devise SuperGaussian for clustering based on the acquired features. By calculating the similarity between clusters and employing a two-stage estimation method, we derive an Eulerian motion field to describe velocities across the entire scene. The 3D Gaussian points then move within the estimated Eulerian motion field. Through bidirectional animation techniques, we ultimately generate a 3D Cinemagraph that exhibits natural and seamlessly loopable dynamics. Experiment results validate the effectiveness of our approach, demonstrating high-quality and visually appealing scene generation. The project is available at https://pokerlishao.github.io/LoopGaussian/.
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# LoopAnimate: Loopable Salient Object Animation

LoopAnimate: Loopable Salient Object Animation ( http://arxiv.org/abs/2404.09172v2 )

ライセンス: Link先を確認
Fanyi Wang, Peng Liu, Haotian Hu, Dan Meng, Jingwen Su, Jinjin Xu, Yanhao Zhang, Xiaoming Ren, Zhiwang Zhang, (参考訳) 拡散モデルに基づく映像生成の研究は急速に進んでいる。 しかし、オブジェクトの忠実度と生成長の制限は、その実用性を妨げている。 さらに、アニメーションの壁紙のような特定のドメインはシームレスなループを必要とし、ビデオの最初のフレームと最後のフレームはシームレスに一致します。 これらの課題に対処するために,一貫した開始フレームと終了フレームでビデオを生成する新しい方法であるLoopAnimateを提案する。 オブジェクトの忠実度を高めるために,複数レベルの画像の外観とテキストの意味情報を分離するフレームワークを導入する。 画像から画像への拡散モデルを構築し,入力画像からの画素レベルの情報と特徴レベルの情報の両方を取り入れ,画像の外観やテキストのセマンティックな埋め込みを拡散モデルの異なる位置に注入する。 既存のUNetベースのビデオ生成モデルは、トレーニング中にビデオ全体を入力し、時間的および位置的な情報を一度にエンコードする必要がある。 しかし、GPUメモリの制限のため、フレームの数は16に制限される。 そこで本研究では,フレーム数が徐々に増加し,微調整モジュールが減少する3段階のトレーニング戦略を提案する。 さらに、時間的・位置的な情報を36フレームまでエンコードする能力を拡張するために、TEMM(Temporal Enhanced Motion Module)を導入する。 提案したLoopAnimateは、UNetベースのビデオ生成モデルのシングルパス生成期間を、高品質なビデオ生成を維持しながら35フレームに拡張した。 実験により、LoopAnimateは、忠実度や時間的整合性などの客観的指標と主観評価結果の両方において、最先端のパフォーマンスを達成することが示された。

Research on diffusion model-based video generation has advanced rapidly. However, limitations in object fidelity and generation length hinder its practical applications. Additionally, specific domains like animated wallpapers require seamless looping, where the first and last frames of the video match seamlessly. To address these challenges, this paper proposes LoopAnimate, a novel method for generating videos with consistent start and end frames. To enhance object fidelity, we introduce a framework that decouples multi-level image appearance and textual semantic information. Building upon an image-to-image diffusion model, our approach incorporates both pixel-level and feature-level information from the input image, injecting image appearance and textual semantic embeddings at different positions of the diffusion model. Existing UNet-based video generation models require to input the entire videos during training to encode temporal and positional information at once. However, due to limitations in GPU memory, the number of frames is typically restricted to 16. To address this, this paper proposes a three-stage training strategy with progressively increasing frame numbers and reducing fine-tuning modules. Additionally, we introduce the Temporal E nhanced Motion Module(TEMM) to extend the capacity for encoding temporal and positional information up to 36 frames. The proposed LoopAnimate, which for the first time extends the single-pass generation length of UNet-based video generation models to 35 frames while maintaining high-quality video generation. Experiments demonstrate that LoopAnimate achieves state-of-the-art performance in both objective metrics, such as fidelity and temporal consistency, and subjective evaluation results.
翻訳日:2024-04-17 13:47:44 公開日:2024-04-16
# 校正レンズによる不変リスク最小化の変数理解に向けて

Towards Understanding Variants of Invariant Risk Minimization through the Lens of Calibration ( http://arxiv.org/abs/2401.17541v3 )

ライセンス: Link先を確認
Kotaro Yoshida, Hiroki Naganuma, (参考訳) 機械学習モデルは伝統的に、トレーニングとテストデータは独立して同一に分散されていると仮定する。 しかし、実世界のアプリケーションでは、テスト分布はトレーニングとは異なることが多い。 この問題はアウト・オブ・ディストリビューション一般化(out-of-distriion generalization)と呼ばれ、従来のモデルに挑戦する。 Invariant Risk Minimization (IRM) は、様々な環境にまたがる特徴を識別し、アウト・オブ・ディストリビューションの堅牢性を高めることを目的として、ソリューションとして登場した。 しかし、IRMの複雑さ、特に双レベル最適化は、様々な近似手法の開発に繋がった。 本研究では,これらの近似IRM手法について検討し,予測校正誤差(ECE)を指標として検討した。 モデル予測の信頼性を測定するECEは、モデルが環境不変の特徴を効果的に捉えているかどうかを示す指標となる。 分布変化を伴うデータセットの比較分析により,表現情報を凝縮したインフォメーション・ボトルネックをベースとしたITMは,比較的精度を保ちながら,CEの改善のバランスを保っていることがわかった。 この発見は、正確さを損なうことなく堅牢性を維持するための、実現可能な道筋を示すため、極めて重要である。 それでも、我々の実験は過正規化に注意し、精度を低下させる可能性がある。 このことは、精度とキャリブレーションの間の微妙な相互作用に対処するためには、単なる精度以上のものである、分布外一般化メトリクスを評価するための体系的なアプローチの必要性を浮き彫りにしている。

Machine learning models traditionally assume that training and test data are independently and identically distributed. However, in real-world applications, the test distribution often differs from training. This problem, known as out-of-distribution generalization, challenges conventional models. Invariant Risk Minimization (IRM) emerges as a solution, aiming to identify features invariant across different environments to enhance out-of-distribution robustness. However, IRM's complexity, particularly its bi-level optimization, has led to the development of various approximate methods. Our study investigates these approximate IRM techniques, employing the Expected Calibration Error (ECE) as a key metric. ECE, which measures the reliability of model prediction, serves as an indicator of whether models effectively capture environment-invariant features. Through a comparative analysis of datasets with distributional shifts, we observe that Information Bottleneck-based IRM, which condenses representational information, achieves a balance in improving ECE while preserving accuracy relatively. This finding is pivotal, as it demonstrates a feasible path to maintaining robustness without compromising accuracy. Nonetheless, our experiments also caution against over-regularization, which can diminish accuracy. This underscores the necessity for a systematic approach in evaluating out-of-distribution generalization metrics, one that beyond mere accuracy to address the nuanced interplay between accuracy and calibration.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# Triad: 知識ベース質問応答を解決するためのマルチロールLLMエージェントを活用したフレームワーク

Triad: A Framework Leveraging a Multi-Role LLM-based Agent to Solve Knowledge Base Question Answering ( http://arxiv.org/abs/2402.14320v5 )

ライセンス: Link先を確認
Chang Zong, Yuchen Yan, Weiming Lu, Jian Shao, Eliot Huang, Heng Chang, Yueting Zhuang, (参考訳) LLMをベースとしたエージェントの最近の進歩は、様々なタスクにおいて有望な結果を示している。 しかし、知識ベースからの質問に対する回答における彼らの利用は、いまだに未解明のままである。 従来の手法によるKBQAシステムの実装は、タスク固有のトレーニングデータの不足とタスク中心のモデル構造を作成する複雑さのために困難である。 本稿では,KBQAタスクに3つの役割を持つLLMエージェントを利用した統合フレームワークTriadを提案する。 エージェントは、さまざまなKBQAサブタスクに取り組むために3つの役割を割り当てられる: 様々なサブタスクをマスターするジェネリストとしてのエージェント、候補者を選ぶための意思決定者としてのエージェント、知識で質問に答えるためのアドバイザーとして。 我々のKBQAフレームワークは、エージェントの複数の役割の協調を含む4つのフェーズで実行される。 その結果,LC-QuADベンチマークとYAGO-QAベンチマークでは,F1スコアが11.8%,20.7%であった。

Recent progress with LLM-based agents has shown promising results across various tasks. However, their use in answering questions from knowledge bases remains largely unexplored. Implementing a KBQA system using traditional methods is challenging due to the shortage of task-specific training data and the complexity of creating task-focused model structures. In this paper, we present Triad, a unified framework that utilizes an LLM-based agent with three roles for KBQA tasks. The agent is assigned three roles to tackle different KBQA subtasks: agent as a generalist for mastering various subtasks, as a decision maker for the selection of candidates, and as an advisor for answering questions with knowledge. Our KBQA framework is executed in four phases, involving the collaboration of the agent's multiple roles. We evaluated the performance of our framework using three benchmark datasets, and the results show that our framework outperforms state-of-the-art systems on the LC-QuAD and YAGO-QA benchmarks, yielding F1 scores of 11.8% and 20.7%, respectively.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# 量的問題:大規模視覚・言語モデルにおける数的幻覚の評価と緩和に向けて

Quantity Matters: Towards Assessing and Mitigating Number Hallucination in Large Vision-Language Models ( http://arxiv.org/abs/2403.01373v3 )

ライセンス: Link先を確認
Huixuan Zhang, Junzhe Zhang, Xiaojun Wan, (参考訳) 大規模視覚言語モデルは、両方の領域を含むタスクを扱うのに素晴らしいスキルを誇示している。 それでもこれらのモデルは、幻覚である不正確な情報を生成することで、しばしば重大な問題を経験する。 本研究では,画像中の特定の物体の数を誤って識別するモデルを参照しながら,特定の種類の幻覚数幻覚に焦点をあてる。 数幻覚に関する定量的評価を行い、主要なオープンソース大規模視覚言語モデルにおいて重要であることを示す。 さらに,2つの関連するタスクを用いて数幻覚の詳細な解析を行い,全てのタスクの内外矛盾を明らかにした。 本研究は,直視法よりも8%の性能向上につながる幻覚数を減らすために,整合性向上を目的としたトレーニング手法を考案した。 私たちのコードとデータセットはコミュニティにリリースされます。

Large-scale vision-language models have demonstrated impressive skill in handling tasks that involve both areas. Nevertheless, these models frequently experience significant issues with generating inaccurate information, which is hallucination. In this study, we concentrate on a specific type of hallucination-number hallucination, referring to models incorrectly identifying the number of certain objects in pictures. We perform quantitative evaluations regarding number hallucination, showing it to be critical in major open-source large vision-language models. Furthermore, we utilizes two related tasks to conduct an in-depth analysis of number hallucination, revealing the severe inner and outer inconsistency among all tasks. Based on this examination, we devise a training approach aimed at improving consistency to reduce number hallucinations, which leads to an 8% enhancement in performance over direct finetuning methods. Our code and dataset will be released to the community.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# コロンビアの地熱勾配予測 : 機械学習によるアプローチ

Predicting the Geothermal Gradient in Colombia: a Machine Learning Approach ( http://arxiv.org/abs/2404.05184v3 )

ライセンス: Link先を確認
Juan C. Mejía-Fragoso, Manuel A. Florez, Rocío Bernal-Olaya, (参考訳) 地熱勾配の正確な決定は、所定の地域の地熱エネルギーポテンシャルを評価するために重要である。 特に興味深いのは、豊富な地熱資源を持つコロンビアである。 活発な石油とガスの探査と生産の歴史は、掘削されたボーアホールを異なる地質環境に残し、地熱勾配を直接測定した。 残念なことに、地熱資源が存在する国ではそのような測定方法が欠如している。 間接的な物理測定は、地域規模で行うのに費用がかかり、困難である。 計算熱モデルを構築することもできるが、基礎となる地質について非常に詳細な知識と地下温度の均一なサンプリングが必要である。 我々は,地球規模の地球物理データセットとコース地質知識しか利用できない地域での地熱勾配を予測するために,教師付き機械学習と直接測定の最近の進歩を活用するアプローチを提案する。 グラディエントブースト回帰木アルゴリズムは最適な予測を行い、トレーニングされたモデルを広範囲に検証する。 我々は,本モデルの予測精度が 12 % 以内であり,他の著者による独立測定値が本モデルとよく一致していることを示す。 最後に,コロンビアの地熱勾配図で,深部探査とデータ収集を行うべき地域に焦点を当てた。

Accurate determination of the geothermal gradient is critical for assessing the geothermal energy potential of a given region. Of particular interest is the case of Colombia, a country with abundant geothermal resources. A history of active oil and gas exploration and production has left drilled boreholes in different geological settings, providing direct measurements of the geothermal gradient. Unfortunately, large regions of the country where geothermal resources might exist lack such measurements. Indirect geophysical measurements are costly and difficult to perform at regional scales. Computational thermal models could be constructed, but they require very detailed knowledge of the underlying geology and uniform sampling of subsurface temperatures to be well-constrained. We present an alternative approach that leverages recent advances in supervised machine learning and available direct measurements to predict the geothermal gradient in regions where only global-scale geophysical datasets and course geological knowledge are available. We find that a Gradient Boosted Regression Tree algorithm yields optimal predictions and extensively validate the trained model. We show that predictions of our model are within 12\% accuracy and that independent measurements performed by other authors agree well with our model. Finnally, we present a geothermal gradient map for Colombia that highlights regions where futher exploration and data collection should be performed.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# Mind-to- Image: Projecting Visual Mental Imagination of the Brain from fMRI

Mind-to-Image: Projecting Visual Mental Imagination of the Brain from fMRI ( http://arxiv.org/abs/2404.05468v3 )

ライセンス: Link先を確認
Hugo Caselles-Dupré, Charles Mellerio, Paul Hérent, Alizée Lopez-Persem, Benoit Béranger, Mathieu Soularue, Pierre Fautrel, Gauthier Vernier, Matthieu Cord, (参考訳) 視覚刺激によって収集されたfMRIデータから被験者が観察した画像の再構成は、広範囲なfMRIデータセットが利用可能となり、画像生成のための生成モデルの進歩により、過去10年間に大きな進歩を遂げてきた。 しかし、視覚再建の応用はいまだに限られている。 視覚的想像力の再構築は、障害を持つ個人を支援することから、法廷での証人口座の検証まで、潜在的に革命的な応用によって大きな課題を呈する。 この分野での主なハードルは、視覚画像のためのデータ収集プロトコルの欠如と、対象とするデータセットの欠如である。 伝統的に、fMRI-to-imageは、視覚刺激にさらされた被験者から収集されたデータに依存しており、視覚刺激と視覚刺激の脳活動の違いに基づいて視覚画像を生成する問題を引き起こす。 提案したデータ収集プロトコルとともに、視覚画像に関するかなりのデータセット(約6hのスキャン)を初めてコンパイルした。 次に、fMRI-to-imageモデルの修正版をトレーニングし、メモリと純粋なイマジネーションの2つのモードからイメージを再構築する可能性を示す。 これは、視覚画像の直接再構成を可能にする技術を構築するための重要なステップである。

The reconstruction of images observed by subjects from fMRI data collected during visual stimuli has made significant strides in the past decade, thanks to the availability of extensive fMRI datasets and advancements in generative models for image generation. However, the application of visual reconstruction has remained limited. Reconstructing visual imagination presents a greater challenge, with potentially revolutionary applications ranging from aiding individuals with disabilities to verifying witness accounts in court. The primary hurdles in this field are the absence of data collection protocols for visual imagery and the lack of datasets on the subject. Traditionally, fMRI-to-image relies on data collected from subjects exposed to visual stimuli, which poses issues for generating visual imagery based on the difference of brain activity between visual stimulation and visual imagery. For the first time, we have compiled a substantial dataset (around 6h of scans) on visual imagery along with a proposed data collection protocol. We then train a modified version of an fMRI-to-image model and demonstrate the feasibility of reconstructing images from two modes of imagination: from memory and from pure imagination. This marks an important step towards creating a technology that allow direct reconstruction of visual imagery.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# 協調的(大規模)言語モデルを用いた事象的刑事裁判所ビュー生成

Event Grounded Criminal Court View Generation with Cooperative (Large) Language Models ( http://arxiv.org/abs/2404.07001v3 )

ライセンス: Link先を確認
Linan Yue, Qi Liu, Lili Zhao, Li Wang, Weibo Gao, Yanqing An, (参考訳) 法的なインテリジェンスの発展に伴い、刑事裁判所ビュージェネレーション(Criminal Court View Generation)は法的なインテリジェンスの重要な課題として多くの注目を集め、事件事実を要約した簡潔で一貫性のあるテキストを生成し、評決の説明を提供することを目指している。 既存の研究は、事件の事実が裁判所の見解を導くための重要な情報を探っている。 それらの多くは、事実を広い部分(例えば、評定関連文)に分割して予測する粗いアプローチを採用している。 しかし、このアプローチは、様々な犯罪要素や法的な出来事など、事件事実に存在する複雑な詳細を捉えることに失敗している。 そこで,本稿では,犯罪裁判所ビュー生成のためのイベントグラウンドドジェネレーション(EGG)手法を提案する。 具体的には,大容量のアノテートイベントを伴わずに事象を抽出できるLLMを用いた抽出手法を最初に設計する。 そして,抽出した事象を事例事実と事象を融合して,裁判所ビュー生成に組み込む。 また,EGGの抽出フェーズにおけるLLMの使用による計算負担を考慮し,推定フェーズにおけるLLMを用いたイベント抽出の要求を解消できるLLMフリーEGG法を提案する。 提案手法の有効性を実世界のデータセットで明らかに検証した。

With the development of legal intelligence, Criminal Court View Generation has attracted much attention as a crucial task of legal intelligence, which aims to generate concise and coherent texts that summarize case facts and provide explanations for verdicts. Existing researches explore the key information in case facts to yield the court views. Most of them employ a coarse-grained approach that partitions the facts into broad segments (e.g., verdict-related sentences) to make predictions. However, this approach fails to capture the complex details present in the case facts, such as various criminal elements and legal events. To this end, in this paper, we propose an Event Grounded Generation (EGG) method for criminal court view generation with cooperative (Large) Language Models, which introduces the fine-grained event information into the generation. Specifically, we first design a LLMs-based extraction method that can extract events in case facts without massive annotated events. Then, we incorporate the extracted events into court view generation by merging case facts and events. Besides, considering the computational burden posed by the use of LLMs in the extraction phase of EGG, we propose a LLMs-free EGG method that can eliminate the requirement for event extraction using LLMs in the inference phase. Extensive experimental results on a real-world dataset clearly validate the effectiveness of our proposed method.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# 外科的電気診断における準最適指示からの逆戻り学習と応用

Reward Learning from Suboptimal Demonstrations with Applications in Surgical Electrocautery ( http://arxiv.org/abs/2404.07185v2 )

ライセンス: Link先を確認
Zohre Karimi, Shing-Hei Ho, Bao Thach, Alan Kuntz, Daniel S. Brown, (参考訳) デモ(LfD)技術によるロボット手術の自動化は非常に難しい。 これは、外科的タスクは、しばしば物理的オブジェクトの複雑な相互作用を伴うシーケンシャルな意思決定プロセスを含み、ミスに対する耐性が低いためである。 先行研究は、全てのデモンストレーションが完全に観察可能で最適なものであると仮定しており、現実の世界では実用的ではないかもしれない。 本稿では, 部分ビュー点雲観測による最適下界実験の限られた数から, 頑健な報酬関数を学習するサンプル効率の手法を提案する。 次に、強化学習(RL)を用いて学習した報酬関数を最適化し、ポリシーを学習する。 学習した報酬関数を用いてポリシーを得ることは、純粋な模倣学習よりも堅牢であることを示す。 提案手法は, 提案した実証実験が最適以下であり, 観察が高次元の点雲であっても良好に動作できることを実証する。 コードとビデオ:https://sites.google.com/view/lfdinelectrocautery

Automating robotic surgery via learning from demonstration (LfD) techniques is extremely challenging. This is because surgical tasks often involve sequential decision-making processes with complex interactions of physical objects and have low tolerance for mistakes. Prior works assume that all demonstrations are fully observable and optimal, which might not be practical in the real world. This paper introduces a sample-efficient method that learns a robust reward function from a limited amount of ranked suboptimal demonstrations consisting of partial-view point cloud observations. The method then learns a policy by optimizing the learned reward function using reinforcement learning (RL). We show that using a learned reward function to obtain a policy is more robust than pure imitation learning. We apply our approach on a physical surgical electrocautery task and demonstrate that our method can perform well even when the provided demonstrations are suboptimal and the observations are high-dimensional point clouds. Code and videos available here: https://sites.google.com/view/lfdinelectrocautery
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# Laissez-Faire Harms: 生成言語モデルにおけるアルゴリズム的バイアス

Laissez-Faire Harms: Algorithmic Biases in Generative Language Models ( http://arxiv.org/abs/2404.07475v2 )

ライセンス: Link先を確認
Evan Shieh, Faye-Marie Vassel, Cassidy Sugimoto, Thema Monroe-White, (参考訳) 生成言語モデル(LM)の迅速な展開は、多様な消費者の幸福に影響を及ぼす社会的バイアスに関する懸念を提起している。 生成的LMに関する現存する文献は、明示的なアイデンティティープロンプトを通じて主に偏見を調査している。 しかし、検索エンジンを含む初期の言語ベースの技術プラットフォームにおける偏見に関する先行研究により、識別項が明示的に指定されていない場合でも差別が発生することが示されている。 オープンエンドプロンプトに対するLM応答のバイアスの研究(アイデンティティ分類が未特定のままである)は欠如しており、まだエンド消費者の害に基づいていない。 そこで本研究では,オープン・エンド・プロンプトにより,より広い範囲の自然利用事例を考慮し,生成的LMバイアスの研究を進めた。 この"laissez-faire"設定では、最も普及しているLM(ChatGPT3.5, ChatGPT4, Claude2.0, Llama2, PaLM2)の5つのテキストから合成されたテキストが、交差する人種、性別、/または性的指向のアイデンティティ(AI/AN, Asian, Black, Latine, MENA, NH/PI, female, Non-binary, Queer)を持つ未成年者に対する欠落、従属、およびステレオタイピングの害を恒久的に受けていることが分かる。 このような個人が、代表者や権限を持つ人物と比較して、従属的な方法で自身のアイデンティティを表現するLM生成出力に遭遇する確率が、数百から数千倍にも達するほど、偏見の証拠が広く見られる。 また,未成年者に対して不均等に影響を及ぼす心理的障害を引き起こすことが知られているLM出力のステレオタイプ(eg perpetual foreigner)の頻度も記録する。 ステレオタイプ脅威は認知能力の低下と負の自己知覚の増大につながる。 われわれの調査結果は、言語モデルによる差別的被害から消費者を守るための緊急の必要性を強調し、多様な消費者を力づけるための重要なAI教育プログラムに投資している。

The rapid deployment of generative language models (LMs) has raised concerns about social biases affecting the well-being of diverse consumers. The extant literature on generative LMs has primarily examined bias via explicit identity prompting. However, prior research on bias in earlier language-based technology platforms, including search engines, has shown that discrimination can occur even when identity terms are not specified explicitly. Studies of bias in LM responses to open-ended prompts (where identity classifications are left unspecified) are lacking and have not yet been grounded in end-consumer harms. Here, we advance studies of generative LM bias by considering a broader set of natural use cases via open-ended prompting. In this "laissez-faire" setting, we find that synthetically generated texts from five of the most pervasive LMs (ChatGPT3.5, ChatGPT4, Claude2.0, Llama2, and PaLM2) perpetuate harms of omission, subordination, and stereotyping for minoritized individuals with intersectional race, gender, and/or sexual orientation identities (AI/AN, Asian, Black, Latine, MENA, NH/PI, Female, Non-binary, Queer). We find widespread evidence of bias to an extent that such individuals are hundreds to thousands of times more likely to encounter LM-generated outputs that portray their identities in a subordinated manner compared to representative or empowering portrayals. We also document a prevalence of stereotypes (e.g. perpetual foreigner) in LM-generated outputs that are known to trigger psychological harms that disproportionately affect minoritized individuals. These include stereotype threat, which leads to impaired cognitive performance and increased negative self-perception. Our findings highlight the urgent need to protect consumers from discriminatory harms caused by language models and invest in critical AI education programs tailored towards empowering diverse consumers.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# スケール(ダウン)CLIP: データ、アーキテクチャ、トレーニング戦略の総合的な分析

Scaling (Down) CLIP: A Comprehensive Analysis of Data, Architecture, and Training Strategies ( http://arxiv.org/abs/2404.08197v2 )

ライセンス: Link先を確認
Zichao Li, Cihang Xie, Ekin Dogus Cubuk, (参考訳) 本稿では,CLIP(Contrastive Language-Image Pre-Training)の性能を,限られた計算予算にスケールダウンする際の性能について検討する。 データ、アーキテクチャ、トレーニング戦略の3つの側面に沿ってCLIPを調査します。 データに関して、高品質なトレーニングデータの重要性を示し、高品質なデータのデータセットがより少ない品質のデータセットよりも優れていることを示す。 また、モデルの性能がデータセットのサイズによってどう変化するかについても検討し、より小さなViTモデルはより小さなデータセットに適しており、大きなモデルはより大きなデータセットで、固定された計算でより良く動作することを示唆している。 さらに、CLIPトレーニングのためのCNNベースのアーキテクチャやVTベースのアーキテクチャを選択するタイミングに関するガイダンスも提供する。 SLIP、FLIP、CLIP、CLIP+Data Augmentationという4つのCLIPトレーニング戦略を比較し、トレーニング戦略の選択が利用可能な計算リソースに依存することを示す。 私たちの分析によると、CLIP+Data Augmentationはトレーニングデータの半分しか使用せず、CLIPに匹敵するパフォーマンスを実現することができる。 この作業は、CLIPモデルを効果的にトレーニングし、デプロイする方法に関する実践的な洞察を提供する。

This paper investigates the performance of the Contrastive Language-Image Pre-training (CLIP) when scaled down to limited computation budgets. We explore CLIP along three dimensions: data, architecture, and training strategies. With regards to data, we demonstrate the significance of high-quality training data and show that a smaller dataset of high-quality data can outperform a larger dataset with lower quality. We also examine how model performance varies with different dataset sizes, suggesting that smaller ViT models are better suited for smaller datasets, while larger models perform better on larger datasets with fixed compute. Additionally, we provide guidance on when to choose a CNN-based architecture or a ViT-based architecture for CLIP training. We compare four CLIP training strategies - SLIP, FLIP, CLIP, and CLIP+Data Augmentation - and show that the choice of training strategy depends on the available compute resource. Our analysis reveals that CLIP+Data Augmentation can achieve comparable performance to CLIP using only half of the training data. This work provides practical insights into how to effectively train and deploy CLIP models, making them more accessible and affordable for practical use in various applications.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# 言語とドメイン固有の大規模言語モデルの事前学習と更新:日本のビジネスドメインを事例として

Pretraining and Updating Language- and Domain-specific Large Language Model: A Case Study in Japanese Business Domain ( http://arxiv.org/abs/2404.08262v2 )

ライセンス: Link先を確認
Kosuke Takahashi, Takahiro Omi, Kosuke Arima, Tatsuya Ishigaki, (参考訳) 言語とドメイン固有の大規模言語モデル (LLM) を別のトピックとして検討した以前の研究もある。 本研究では、非英語と高需要産業ドメインの組み合わせについて、日本のビジネス特化LLMに着目して検討する。 この種のモデルには、ビジネス領域の専門知識、強力な言語スキル、そしてその知識の定期的な更新が必要です。 私たちは、ビジネステキストと特許の新しいデータセットを使用して、スクラッチから13億パラメータのLMをトレーニングし、最新のビジネスドキュメントで継続的に事前トレーニングしました。 また,日本語ビジネス領域質問応答(QA)のための新しいベンチマークを提案し,そのモデルの評価を行った。 その結果,事前学習モデルでは一般知識を失うことなくQA精度が向上し,継続事前学習により新たな情報への適応が促進されることがわかった。 事前訓練されたモデルとビジネスドメインのベンチマークが公開されています。

Several previous studies have considered language- and domain-specific large language models (LLMs) as separate topics. This study explores the combination of a non-English language and a high-demand industry domain, focusing on a Japanese business-specific LLM. This type of a model requires expertise in the business domain, strong language skills, and regular updates of its knowledge. We trained a 13-billion-parameter LLM from scratch using a new dataset of business texts and patents, and continually pretrained it with the latest business documents. Further we propose a new benchmark for Japanese business domain question answering (QA) and evaluate our models on it. The results show that our pretrained model improves QA accuracy without losing general knowledge, and that continual pretraining enhances adaptation to new information. Our pretrained model and business domain benchmark are publicly available.
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# 動くイベントカメラで3D人間をスキャン

3D Human Scan With A Moving Event Camera ( http://arxiv.org/abs/2404.08504v2 )

ライセンス: Link先を確認
Kai Kohyama, Shintaro Shiba, Yoshimitsu Aoki, (参考訳) 3Dの人体を捕獲することは、仮想現実やスポーツ分析といった幅広い応用でコンピュータビジョンにおいて重要なタスクの1つである。 しかし、従来のフレームカメラは時間分解能とダイナミックレンジによって制限されており、現実世界のアプリケーション設定に制約が課されている。 イベントカメラは、高時間分解能と高ダイナミックレンジ(HDR)の利点があるが、異なる特徴を持つデータを扱うためには、イベントベースの手法の開発が必要である。 本稿では,3次元ポーズ推定とヒューマンメッシュ復元のためのイベントベース手法を提案する。 イベントベースのヒューマンメッシュリカバリに関する以前の作業では、フレーム(イメージ)とイベントデータが必要だった。 提案手法は,イベントカメラを静止体に移動させて3Dボクセルを彫り,減衰した光線で人間のポーズとメッシュを再構成し,統計モデルに適合させ,高周波の詳細を保存することによって,イベントのみに依存する。 実験の結果,提案手法は従来のフレームベース手法よりも,ポーズとボディーメッシュの両方の推定精度が高いことがわかった。 また,従来のカメラの動作がぼやけている状況においても,その結果が示される。 これは、イベントのみの人間のメッシュリカバリを初めて示すもので、視覚センサーから堅牢で正確な3D人体スキャンを実現するための第一歩になることを願っています。 https://florpeng.github.io/event-based-human-scan/

Capturing a 3D human body is one of the important tasks in computer vision with a wide range of applications such as virtual reality and sports analysis. However, conventional frame cameras are limited by their temporal resolution and dynamic range, which imposes constraints in real-world application setups. Event cameras have the advantages of high temporal resolution and high dynamic range (HDR), but the development of event-based methods is necessary to handle data with different characteristics. This paper proposes a novel event-based method for 3D pose estimation and human mesh recovery. Prior work on event-based human mesh recovery require frames (images) as well as event data. The proposed method solely relies on events; it carves 3D voxels by moving the event camera around a stationary body, reconstructs the human pose and mesh by attenuated rays, and fit statistical body models, preserving high-frequency details. The experimental results show that the proposed method outperforms conventional frame-based methods in the estimation accuracy of both pose and body mesh. We also demonstrate results in challenging situations where a conventional camera has motion blur. This is the first to demonstrate event-only human mesh recovery, and we hope that it is the first step toward achieving robust and accurate 3D human body scanning from vision sensors. https://florpeng.github.io/event-based-human-scan/
翻訳日:2024-04-17 11:52:13 公開日:2024-04-16
# NIR-Assisted Image Denoising: A selective Fusion Approach and a Real-World Benchmark datase

NIR-Assisted Image Denoising: A Selective Fusion Approach and A Real-World Benchmark Datase ( http://arxiv.org/abs/2404.08514v2 )

ライセンス: Link先を確認
Rongjian Xu, Zhilu Zhang, Renlong Wu, Wangmeng Zuo, (参考訳) 画像復調の著しい進歩にもかかわらず、特に極低照度環境では、ノイズを取り除きながら微細な細部を復元することは依然として困難である。 近赤外(NIR)画像を活用して視認可能なRGB画像の復調を支援することは、この問題に対処する可能性を示し、有望な技術となった。 それでも、NIR-RGB画像と実世界のペア化データセットの不足との間のコンテンツ不整合のため、既存の作業では、実世界の画像復調に有効なNIR情報の活用に苦慮している。 この問題を軽減するために,提案するSFM (Selective Fusion Module) は,NIR-RGB の深い機能を統合するために,先進的なデノナイズネットワークにプラグイン・アンド・プレイできる。 具体的には, NIR と RGB のグローバル・局所変調を逐次実行し, 2 つの変調特徴を統合する。 さらに,様々なシナリオと様々なノイズレベルをカバーする実世界のNIR支援画像デノイング(Real-NAID)データセットを提案する。 人工データセットと実世界のデータセットの両方に対する大規模な実験により、提案手法は最先端のデータセットよりも優れた結果が得られることを示した。

Despite the significant progress in image denoising, it is still challenging to restore fine-scale details while removing noise, especially in extremely low-light environments. Leveraging near-infrared (NIR) images to assist visible RGB image denoising shows the potential to address this issue, becoming a promising technology. Nonetheless, existing works still struggle with taking advantage of NIR information effectively for real-world image denoising, due to the content inconsistency between NIR-RGB images and the scarcity of real-world paired datasets. To alleviate the problem, we propose an efficient Selective Fusion Module (SFM), which can be plug-and-played into the advanced denoising networks to merge the deep NIR-RGB features. Specifically, we sequentially perform the global and local modulation for NIR and RGB features, and then integrate the two modulated features. Furthermore, we present a Real-world NIR-Assisted Image Denoising (Real-NAID) dataset, which covers diverse scenarios as well as various noise levels. Extensive experiments on both synthetic and our real-world datasets demonstrate that the proposed method achieves better results than state-of-the-art ones.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# RLHF解読:LLMのための人間フィードバックからの強化学習の批判的分析

RLHF Deciphered: A Critical Analysis of Reinforcement Learning from Human Feedback for LLMs ( http://arxiv.org/abs/2404.08555v2 )

ライセンス: Link先を確認
Shreyas Chaudhari, Pranjal Aggarwal, Vishvak Murahari, Tanmay Rajpurohit, Ashwin Kalyan, Karthik Narasimhan, Ameet Deshpande, Bruno Castro da Silva, (参考訳) 最先端の大規模言語モデル(LLM)は、様々なタスクに欠かせないツールとなっている。 しかし、人間のための効果的なアシスタントとしてLLMを訓練するには、慎重に考慮する必要がある。 有望なアプローチは、人間からのフィードバック(RLHF)からの強化学習であり、人間の好みに応じてモデルを更新し、毒性や幻覚などの問題を緩和する。 しかし、LLMに対するRLHFの理解は、この手法を普及させた初期の設計選択と大きく絡み合っており、現在の研究は、フレームワークを根本的に改善するのではなく、これらの選択を拡大することに重点を置いている。 本稿では,RLHFを強化学習原理のレンズを通して解析し,その基礎の理解を深め,報酬モデルであるRLHFのコアコンポーネントに大きく焦点をあてる。 本研究は,RLHFトレーニングアルゴリズムにおけるモデル選択,関数近似の注意点,およびそれらの意味について検討し,報酬の表現性に関する基礎的な仮定を明らかにする。 我々の分析は、現在の方法論の限界を同時に明らかにし、報酬モデルと訓練方法の役割の理解を改善します。 言語モデルの性能に影響を及ぼすとともに、誤一般化、モデル不特定、フィードバックの空間性など、これらの制限を特徴付ける。 議論と分析は、研究者や実践者がRLHFの課題を理解し、既存の取り組みを構築するための参考となる、現在の文献の分類学的レビューによって裏付けられている。

State-of-the-art large language models (LLMs) have become indispensable tools for various tasks. However, training LLMs to serve as effective assistants for humans requires careful consideration. A promising approach is reinforcement learning from human feedback (RLHF), which leverages human feedback to update the model in accordance with human preferences and mitigate issues like toxicity and hallucinations. Yet, an understanding of RLHF for LLMs is largely entangled with initial design choices that popularized the method and current research focuses on augmenting those choices rather than fundamentally improving the framework. In this paper, we analyze RLHF through the lens of reinforcement learning principles to develop an understanding of its fundamentals, dedicating substantial focus to the core component of RLHF -- the reward model. Our study investigates modeling choices, caveats of function approximation, and their implications on RLHF training algorithms, highlighting the underlying assumptions made about the expressivity of reward. Our analysis improves the understanding of the role of reward models and methods for their training, concurrently revealing limitations of the current methodology. We characterize these limitations, including incorrect generalization, model misspecification, and the sparsity of feedback, along with their impact on the performance of a language model. The discussion and analysis are substantiated by a categorical review of current literature, serving as a reference for researchers and practitioners to understand the challenges of RLHF and build upon existing efforts.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# Megalodon: 文脈長を制限しない効率的なLLM事前学習と推論

Megalodon: Efficient LLM Pretraining and Inference with Unlimited Context Length ( http://arxiv.org/abs/2404.08801v2 )

ライセンス: Link先を確認
Xuezhe Ma, Xiaomeng Yang, Wenhan Xiong, Beidi Chen, Lili Yu, Hao Zhang, Jonathan May, Luke Zettlemoyer, Omer Levy, Chunting Zhou, (参考訳) トランスフォーマーの2次複雑さと弱い長さの外挿は、長いシーケンスにスケールする能力を制限し、線形アテンションや状態空間モデルのようなサブクワラティックなソリューションは存在するが、前トレーニング効率と下流タスク精度において、トランスフォーマーを経験的に過小評価している。 文脈長無制限の効率的なシーケンスモデリングのためのニューラルネットワークであるMegalodonを紹介する。 MegalodonはMegaのアーキテクチャを継承し、さらに、複雑な指数的移動平均(CEMA)、時間ステップ正規化層、正規化された注意機構、および2ホップ残差構成を持つプレノルムを含む、その能力と安定性を改善するための複数の技術コンポーネントを導入している。 Llama2と比較して、Megalodonは70億のパラメータと2兆のトレーニングトークンのスケールでTransformerよりも効率が良い。 メガロドンは、Llama2-7B (1.75) と13B (1.67) の間の途中で1.70の訓練損失に達した。 コード:https://github.com/XuezheMax/megalodon

The quadratic complexity and weak length extrapolation of Transformers limits their ability to scale to long sequences, and while sub-quadratic solutions like linear attention and state space models exist, they empirically underperform Transformers in pretraining efficiency and downstream task accuracy. We introduce Megalodon, a neural architecture for efficient sequence modeling with unlimited context length. Megalodon inherits the architecture of Mega (exponential moving average with gated attention), and further introduces multiple technical components to improve its capability and stability, including complex exponential moving average (CEMA), timestep normalization layer, normalized attention mechanism and pre-norm with two-hop residual configuration. In a controlled head-to-head comparison with Llama2, Megalodon achieves better efficiency than Transformer in the scale of 7 billion parameters and 2 trillion training tokens. Megalodon reaches a training loss of 1.70, landing mid-way between Llama2-7B (1.75) and 13B (1.67). Code: https://github.com/XuezheMax/megalodon
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# データ駆動モデルによる都市間交通渋滞予測

Predicting Traffic Congestion at Urban Intersections Using Data-Driven Modeling ( http://arxiv.org/abs/2404.08838v2 )

ライセンス: Link先を確認
Tara Kelly, Jessica Gupta, (参考訳) 交差点での交通渋滞は都市部で大きな問題であり、通勤時間の増加、安全上の危険、運用上の不効率につながっている。 本研究では,米国の主要都市における交差点の混雑予測モデルの構築を目的として,4800の交差点にまたがる商用車両の走行記録データを用いて,都市間における混雑予測モデルを構築した。 データセットには、交差点座標、通り名、日時、交通メトリクス(Kashyap et al , 2019)を含む27の機能が含まれている。 降雨/降雪率、中心街と郊外からの距離、道路タイプといった追加の特徴は、モデルの予測力を高めるために組み込まれた。 この手法には、データ探索、特徴変換、低ランクモデルとラベルエンコーディングによる欠落値の処理が含まれる。 提案モデルでは,交通ホットスポットの予測,運用の最適化,インフラの課題の特定などにおいて,都市計画者や政府を支援する可能性を秘めている。

Traffic congestion at intersections is a significant issue in urban areas, leading to increased commute times, safety hazards, and operational inefficiencies. This study aims to develop a predictive model for congestion at intersections in major U.S. cities, utilizing a dataset of trip-logging metrics from commercial vehicles across 4,800 intersections. The dataset encompasses 27 features, including intersection coordinates, street names, time of day, and traffic metrics (Kashyap et al., 2019). Additional features, such as rainfall/snowfall percentage, distance from downtown and outskirts, and road types, were incorporated to enhance the model's predictive power. The methodology involves data exploration, feature transformation, and handling missing values through low-rank models and label encoding. The proposed model has the potential to assist city planners and governments in anticipating traffic hot spots, optimizing operations, and identifying infrastructure challenges.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# マルチエージェント検討によるLCMの信頼性校正と合理化

Confidence Calibration and Rationalization for LLMs via Multi-Agent Deliberation ( http://arxiv.org/abs/2404.09127v2 )

ライセンス: Link先を確認
Ruixin Yang, Dheeraj Rajagopal, Shirley Anugrah Hayati, Bin Hu, Dongyeop Kang, (参考訳) 特に人間からのフィードバック(RLHF)から強化学習を行う場合、不確実性推定は、一般的には校正が不十分で過信である現在の大規模言語モデル(LLM)にとって重要な問題である。 人間の決定と信頼は本質的な信念に起因するだけでなく、日々の観察を通して調整することもできるが、従来のLCMの校正法は「集団的な知恵」を最大限に活用せずに個人的信頼を推定または引き出すことに焦点を当てている。 本研究では,複数ツール強化LDMエージェントの協調的・表現的能力を活用した,ポストホックトレーニングフリーキャリブレーション戦略であるCollaborative Calibrationを提案する。 協調校正が様々な領域にわたる生成的QAタスクに与える影響を実証し、総合的な校正された信頼度評価の合理化とモデル予測の信頼性の向上に寄与する可能性を示した。

Uncertainty estimation is a significant issue for current large language models (LLMs) that are generally poorly calibrated and over-confident, especially with reinforcement learning from human feedback (RLHF). Unlike humans, whose decisions and confidences not only stem from intrinsic beliefs but can also be adjusted through daily observations, existing calibration methods for LLMs focus on estimating or eliciting individual confidence without taking full advantage of the "Collective Wisdom": the interaction among multiple LLMs that can collectively improve both accuracy and calibration. In this work, we propose Collaborative Calibration, a post-hoc training-free calibration strategy that leverages the collaborative and expressive capabilities of multiple tool-augmented LLM agents in a simulated group deliberation process. We demonstrate the effectiveness of Collaborative Calibration on generative QA tasks across various domains, showing its potential in harnessing the rationalization of collectively calibrated confidence assessments and improving the reliability of model predictions.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# 新興プラットフォームのLLM: トップダウン開発1年

Emerging Platforms Meet Emerging LLMs: A Year-Long Journey of Top-Down Development ( http://arxiv.org/abs/2404.09151v2 )

ライセンス: Link先を確認
Siyuan Feng, Jiawei Liu, Ruihang Lai, Charlie F. Ruan, Yong Yu, Lingming Zhang, Tianqi Chen, (参考訳) さまざまなコンピューティングプラットフォームに機械学習(ML)をデプロイすることは、アプリケーションの加速と拡張に不可欠である。 しかし、モデル、特に最近のLarge Language Models (LLMs) の急速な進化と新しいコンピューティングプラットフォームの出現により、ソフトウェアエンジニアリングの重大な課題が提示される。 現在のMLフレームワークは、主にCPUとCUDAプラットフォーム向けに設計されており、Metal、Vulkan、WebGPUといった新興のフレームワークを有効にするための大きなギャップを残している。 従来のボトムアップ開発パイプラインはギャップをタイムリーに埋めることができないが、開発者の生産性に最適化されたさまざまなプラットフォームへのMLシステムのデプロイを合理化するトップダウンのアプローチとツーリングであるTapMLを導入する。 広範な手動テストとデバッグを含む従来のボトムアップメソッドとは異なり、TapMLはテスト彫刻を通じてユニットテストを自動化するとともに、成熟したソースプラットフォームから新たなターゲットプラットフォームへのモデル計算を徐々にオフロードする移行ベースの戦略を採用している。 リアルな入力とリモート接続を段階的なターゲットオフロードに活用することにより、TapMLはバリデーションを加速し、デバッグスコープを最小化し、開発作業を大幅に最適化する。 TapMLは1年間にわたる現実世界の取り組みを通じて開発され、重要な新興モデルやプラットフォームをデプロイすることに成功しました。 5つの新興プラットフォームにまたがる17の異なるアーキテクチャで82の新興モデルを本格的にデプロイすることで、TapMLが開発者の生産性を向上し、モデルの信頼性と効率を確保できることを示す。 さらに,新たなMLシステムを開発するためのベストプラクティスを提供するために,実世界の開発から包括的ケーススタディを要約する。

Deploying machine learning (ML) on diverse computing platforms is crucial to accelerate and broaden their applications. However, it presents significant software engineering challenges due to the fast evolution of models, especially the recent Large Language Models (LLMs), and the emergence of new computing platforms. Current ML frameworks are primarily engineered for CPU and CUDA platforms, leaving a big gap in enabling emerging ones like Metal, Vulkan, and WebGPU. While a traditional bottom-up development pipeline fails to close the gap timely, we introduce TapML, a top-down approach and tooling designed to streamline the deployment of ML systems on diverse platforms, optimized for developer productivity. Unlike traditional bottom-up methods, which involve extensive manual testing and debugging, TapML automates unit testing through test carving and adopts a migration-based strategy for gradually offloading model computations from mature source platforms to emerging target platforms. By leveraging realistic inputs and remote connections for gradual target offloading, TapML accelerates the validation and minimizes debugging scopes, significantly optimizing development efforts. TapML was developed and applied through a year-long, real-world effort that successfully deployed significant emerging models and platforms. Through serious deployments of 82 emerging models in 17 distinct architectures across 5 emerging platforms, we showcase the effectiveness of TapML in enhancing developer productivity while ensuring model reliability and efficiency. Furthermore, we summarize comprehensive case studies from our real-world development, offering best practices for developing emerging ML systems.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# セマンティック・シンキング後:大規模言語モデルから推論能力を拡張するためのロバスト戦略

Post-Semantic-Thinking: A Robust Strategy to Distill Reasoning Capacity from Large Language Models ( http://arxiv.org/abs/2404.09170v2 )

ライセンス: Link先を確認
Xiaoshu Chen, Sihang Zhou, Ke Liang, Xinwang Liu, (参考訳) 思考の微調整の連鎖は、質問に対する答えを単に予測するだけでなく、大きな言語モデル(LLM)の推論手順を模倣することで、特定のタスクに対する性能向上のための推論能力を持つ小さな学生モデルを提供することを目的としている。 しかし、既存の方法 1) 解答の前に理性を生成し, 解答の正しさを理性における幻覚に敏感にする; 2) 学生モデルに対して, LLMの理性表現を正確に繰り返すように強制する。 そこで本稿では,理性よりも先に回答を生成するために,PST(Post-Semantic-Thinking)戦略を提案する。 この回答ファースト設定のおかげです。 1) 答弁手続は,合理性における幻覚による悪影響から逃れることができる。 2 複雑な推論手順は、比較的簡潔な解答と密接な結びつきがあり、その解答の先行情報により、質問の推論が容易になる。 3)提案手法の効率性は,推論の実行時に回答が出力された直後に生成を停止できるため,設定の恩恵を受けることができる。 さらに、PST戦略は、生成された論理学に対する制約を語彙空間の代わりに隠された意味空間において LLMs Gold Standard に近いものにすることで、小学生モデルは論理学における意味論的推論論理をよりよく理解する。 12の推論タスクにわたる大規模な実験により、PSTの有効性が示された。

Chain of thought finetuning aims to endow small student models with reasoning capacity to improve their performance towards a specific task by allowing them to imitate the reasoning procedure of large language models (LLMs) beyond simply predicting the answer to the question. However, the existing methods 1) generate rationale before the answer, making their answer correctness sensitive to the hallucination in the rationale;2) force the student model to repeat the exact LLMs rationale expression word-after-word, which could have the model biased towards learning the expression in rationale but count against the model from understanding the core logic behind it. Therefore, we propose a robust Post-Semantic-Thinking (PST) strategy to generate answers before rationale. Thanks to this answer-first setting, 1) the answering procedure can escape from the adverse effects caused by hallucinations in the rationale; 2) the complex reasoning procedure is tightly bound with the relatively concise answer, making the reasoning for questions easier with the prior information in the answer; 3) the efficiency of the method can also benefit from the setting since users can stop the generation right after answers are outputted when inference is conducted. Furthermore, the PST strategy loose the constraint against the generated rationale to be close to the LLMs gold standard in the hidden semantic space instead of the vocabulary space, thus making the small student model better comprehend the semantic reasoning logic in rationale. Extensive experiments conducted across 12 reasoning tasks demonstrate the effectiveness of PST.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# ニューラルネット量子状態の最適化とクロムダイマー試験

Improved Optimization for the Neural-network Quantum States and Tests on the Chromium Dimer ( http://arxiv.org/abs/2404.09280v2 )

ライセンス: Link先を確認
Xiang Li, Jia-Cheng Huang, Guang-Ze Zhang, Hao-En Li, Zhu-Ping Shen, Chen Zhao, Jun Li, Han-Shi Hu, (参考訳) ニューラル・ネットワーク量子状態(NQS)の出現は、かなり先進的な波動関数アンザッツの研究をもたらし、軌道空間の変動であるモンテカルロ探査(VMC)の復活を引き起こした。 本研究は, 適応学習率アルゴリズム, 制約付き最適化, ブロック最適化という, NQSを用いたVMC最適化の計算要求を削減するアルゴリズムを3つ導入した。 我々は、cc-pVDZ基底集合内の複素多重参照結合の$\rm H_2O$および$\rm N_2$の洗練されたアルゴリズムを評価し、Ahlrichs SV基底集合における強相関クロム二量(\rm Cr_2$)の基底状態エネルギーを計算する。 この結果は,CPUコストが比較的低い場合に,結合クラスタ理論よりも高い精度が得られる。 この研究は、これらの戦略を用いて最適化効率とロバスト性を高める方法を示し、大規模制限ボルツマンマシン(RBM)ベースのNQSをより効率的に最適化するための新しい経路を開き、NQSの実用的な量子化学応用の大幅な進歩を示す。

The advent of Neural-network Quantum States (NQS) has significantly advanced wave function ansatz research, sparking a resurgence in orbital space variational Monte Carlo (VMC) exploration. This work introduces three algorithmic enhancements to reduce computational demands of VMC optimization using NQS: an adaptive learning rate algorithm, constrained optimization, and block optimization. We evaluate the refined algorithm on complex multireference bond stretches of $\rm H_2O$ and $\rm N_2$ within the cc-pVDZ basis set and calculate the ground-state energy of the strongly correlated chromium dimer ($\rm Cr_2$) in the Ahlrichs SV basis set. Our results achieve superior accuracy compared to coupled cluster theory at a relatively modest CPU cost. This work demonstrates how to enhance optimization efficiency and robustness using these strategies, opening a new path to optimize large-scale Restricted Boltzmann Machine (RBM)-based NQS more effectively and marking a substantial advancement in NQS's practical quantum chemistry applications.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# 部分視点画像からの身体推定のための簡易的手法

A Simple Strategy for Body Estimation from Partial-View Images ( http://arxiv.org/abs/2404.09301v2 )

ライセンス: Link先を確認
Yafei Mao, Xuelu Li, Brandon Smith, Jinjin Li, Raja Bala, (参考訳) 仮想試行と製品パーソナライズは、現代オンラインショッピングにおいてますます重要になってきており、正確な身体計測推定の必要性を強調している。 前回の研究では、RGB画像から3次元の身体形状を推定する研究が進んでいるが、画像中の人間の観察スケールは、距離と体次元の2つの未知の要因に依存するため、本質的に不明瞭である。 この曖昧さは、特に部分的なシナリオで顕著である。 この課題に対処するために,モジュール式で単純な高さ正規化法を提案する。 この解は対象の骨格を所望の位置に移動させ、スケールを正規化し、2つの変数の関係を解消する。 この手法を最先端のヒューマンメッシュ再構成モデルに組み込むことで,部分体計測の精度が著しく向上することを示す実験結果を得た。 さらに、マルチビュー設定へのこのアプローチの適用性を説明し、その汎用性を示す。

Virtual try-on and product personalization have become increasingly important in modern online shopping, highlighting the need for accurate body measurement estimation. Although previous research has advanced in estimating 3D body shapes from RGB images, the task is inherently ambiguous as the observed scale of human subjects in the images depends on two unknown factors: capture distance and body dimensions. This ambiguity is particularly pronounced in partial-view scenarios. To address this challenge, we propose a modular and simple height normalization solution. This solution relocates the subject skeleton to the desired position, thereby normalizing the scale and disentangling the relationship between the two variables. Our experimental results demonstrate that integrating this technique into state-of-the-art human mesh reconstruction models significantly enhances partial body measurement estimation. Additionally, we illustrate the applicability of this approach to multi-view settings, showcasing its versatility.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# テキストから歌へ:声と伴奏を取り入れた制御可能な音楽生成を目指して

Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment ( http://arxiv.org/abs/2404.09313v2 )

ライセンス: Link先を確認
Zhiqing Hong, Rongjie Huang, Xize Cheng, Yongqi Wang, Ruiqi Li, Fuming You, Zhou Zhao, Zhimeng Zhang, (参考訳) 歌は歌声と伴奏の組み合わせである。 しかし、既存の作品では、歌声合成と音楽生成を独立して重視している。 歌の合成を探求するためにはほとんど注意が払われなかった。 そこで本研究では,音声と伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。 我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。 メロディストは、トリトウワーコントラスト事前学習を利用して、制御可能なV2A合成のためのより効果的なテキスト表現を学習する。 音楽サイトから発掘された中国の歌のデータセットは、我々の研究のためにデータ不足を軽減するために構築されている。 評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。 オーディオサンプルはhttps://text2songMelodist.github.io/Sample/で見ることができる。

A song is a combination of singing voice and accompaniment. However, existing works focus on singing voice synthesis and music generation independently. Little attention was paid to explore song synthesis. In this work, we propose a novel task called text-to-song synthesis which incorporating both vocals and accompaniments generation. We develop Melodist, a two-stage text-to-song method that consists of singing voice synthesis (SVS) and vocal-to-accompaniment (V2A) synthesis. Melodist leverages tri-tower contrastive pretraining to learn more effective text representation for controllable V2A synthesis. A Chinese song dataset mined from a music website is built up to alleviate data scarcity for our research. The evaluation results on our dataset demonstrate that Melodist can synthesize songs with comparable quality and style consistency. Audio samples can be found in https://text2songMelodist.github.io/Sample/.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# フェースボイス・アソシエーションと多言語環境(FAME) : 2024年度評価計画

Face-voice Association in Multilingual Environments (FAME) Challenge 2024 Evaluation Plan ( http://arxiv.org/abs/2404.09342v2 )

ライセンス: Link先を確認
Muhammad Saad Saeed, Shah Nawaz, Muhammad Salman Tahir, Rohan Kumar Das, Muhammad Zaigham Zaheer, Marta Moscati, Markus Schedl, Muhammad Haris Khan, Karthik Nandakumar, Muhammad Haroon Yousaf, (参考訳) 技術の進歩により、様々な現実世界のアプリケーションにマルチモーダルシステムが使われるようになった。 その中でも、オーディオ視覚システムは広く使われているマルチモーダルシステムの一つである。 近年,人の顔と声の関連付けが注目されている。 フェース・ボイス・アソシエーション・イン・マルチ言語環境(FAME)チャレンジ2024は,多言語シナリオのユニークな条件下でのフェース・ボイス・アソシエーションの探求に焦点を当てている。 この状態は、世界の人口の半分がバイリンガルであり、ほとんどの人は多言語シナリオの下でコミュニケーションしているという事実から着想を得ている。 この課題は、マルチ言語環境における顔声関連を探索するために、Multilingual Audio-Visual (MAV-Celeb) というデータセットを使用する。 本報告では、FAME Challengeの課題、データセット、ベースライン、タスクの詳細について説明する。

The advancements of technology have led to the use of multimodal systems in various real-world applications. Among them, the audio-visual systems are one of the widely used multimodal systems. In the recent years, associating face and voice of a person has gained attention due to presence of unique correlation between them. The Face-voice Association in Multilingual Environments (FAME) Challenge 2024 focuses on exploring face-voice association under a unique condition of multilingual scenario. This condition is inspired from the fact that half of the world's population is bilingual and most often people communicate under multilingual scenario. The challenge uses a dataset namely, Multilingual Audio-Visual (MAV-Celeb) for exploring face-voice association in multilingual environments. This report provides the details of the challenge, dataset, baselines and task details for the FAME Challenge.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# カメラを用いた顔写真撮影のための方位条件付き顔テクスチャマッピング

Orientation-conditioned Facial Texture Mapping for Video-based Facial Remote Photoplethysmography Estimation ( http://arxiv.org/abs/2404.09378v2 )

ライセンス: Link先を確認
Sam Cantrill, David Ahmedt-Aristizabal, Lars Petersson, Hanna Suominen, Mohammad Ali Armin, (参考訳) カメラベースのリモート光胸腺撮影(rPPG)は、パルスレート(PR)などの重要な生理的信号の接触のない計測を可能にする。 しかし、動的・非拘束な被写体運動は、映像における顔の外観に有意な変動をもたらし、rPPG信号を正確に抽出するビデオベース手法の能力に反する。 本研究では,3次元顔表面を利用して,既存の映像ベース顔rPPG推定手法の動作堅牢性を向上させる,配向条件付き顔テクスチャ映像表現を新たに構築する。 提案手法は、PUREでトレーニングしたPhysNetモデルを用いて、MMPD上でのクロスデータセットテストにおいて、18.2%の性能向上を実現し、設計したビデオ表現の有効性と一般化の利点を強調した。 MMPDを用いたクロスデータセットテストでは,動的,非拘束的動作においても最大29.6%の性能向上がみられ,3次元顔表面をモデルとした3次元顔面rPPG推定によるアンタングル運動の利点が強調された。 アブレーション研究により, 設計決定の有効性と, 異なる映像処理工程の影響を検証した。 本研究は3次元顔表面を動的・非拘束な被写体運動に対処するための一般的な戦略として活用する可能性を示した。 コードはhttps://samcantrill.github.io/orientation-uv-rppg/で公開されている。

Camera-based remote photoplethysmography (rPPG) enables contactless measurement of important physiological signals such as pulse rate (PR). However, dynamic and unconstrained subject motion introduces significant variability into the facial appearance in video, confounding the ability of video-based methods to accurately extract the rPPG signal. In this study, we leverage the 3D facial surface to construct a novel orientation-conditioned facial texture video representation which improves the motion robustness of existing video-based facial rPPG estimation methods. Our proposed method achieves a significant 18.2% performance improvement in cross-dataset testing on MMPD over our baseline using the PhysNet model trained on PURE, highlighting the efficacy and generalization benefits of our designed video representation. We demonstrate significant performance improvements of up to 29.6% in all tested motion scenarios in cross-dataset testing on MMPD, even in the presence of dynamic and unconstrained subject motion, emphasizing the benefits of disentangling motion through modeling the 3D facial surface for motion robust facial rPPG estimation. We validate the efficacy of our design decisions and the impact of different video processing steps through an ablation study. Our findings illustrate the potential strengths of exploiting the 3D facial surface as a general strategy for addressing dynamic and unconstrained subject motion in videos. The code is available at https://samcantrill.github.io/orientation-uv-rppg/.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# 多種サンゴのヒト・イン・ザ・ループセグメンテーション

Human-in-the-Loop Segmentation of Multi-species Coral Imagery ( http://arxiv.org/abs/2404.09406v2 )

ライセンス: Link先を確認
Scarlett Raine, Ross Marchant, Brano Kusy, Frederic Maire, Niko Suenderhauf, Tobias Fischer, (参考訳) 海中車両による広範囲の海洋調査はサンゴ礁の画像の入手可能性を大幅に向上させるが、ドメインの専門家が画像にラベルをつけるのに費用と時間を要する。 点ラベル伝搬は、スパース点ラベルでラベル付けされた既存の画像データを活用するために用いられるアプローチである。 結果として生成された強化された基底真理は、セマンティックセグメンテーションモデルをトレーニングするために使用される。 ここでは,近年の基盤モデルの進歩により,事前学習やカスタム設計のアルゴリズムを必要とせず,DINOv2特徴とK-Nearest Neighbors (KNN)を用いてサンゴサンゴサンゴサンゴマスクを生成できることを実証する。 画像毎の5点ラベルしか利用できない場合,提案手法は画素精度17.3%,mIoU22.6%,画像毎の10点ラベルが利用可能であれば10.6%,19.1%向上する。 ループ内ラベリング方式が使われなくても、KNNによるDINOv2のノイズ化機能は、画素精度が3.5%、mIoU(5グリッド点)が5.7%向上する。 また,画像毎の点標定スタイルが点標定の伝播品質に与える影響を詳細に分析し,点標定効率の最大化に関する一般的な勧告を提供する。

Broad-scale marine surveys performed by underwater vehicles significantly increase the availability of coral reef imagery, however it is costly and time-consuming for domain experts to label images. Point label propagation is an approach used to leverage existing image data labeled with sparse point labels. The resulting augmented ground truth generated is then used to train a semantic segmentation model. Here, we first demonstrate that recent advances in foundation models enable generation of multi-species coral augmented ground truth masks using denoised DINOv2 features and K-Nearest Neighbors (KNN), without the need for any pre-training or custom-designed algorithms. For extremely sparsely labeled images, we propose a labeling regime based on human-in-the-loop principles, resulting in significant improvement in annotation efficiency: If only 5 point labels per image are available, our proposed human-in-the-loop approach improves on the state-of-the-art by 17.3% for pixel accuracy and 22.6% for mIoU; and by 10.6% and 19.1% when 10 point labels per image are available. Even if the human-in-the-loop labeling regime is not used, the denoised DINOv2 features with a KNN outperforms the prior state-of-the-art by 3.5% for pixel accuracy and 5.7% for mIoU (5 grid points). We also provide a detailed analysis of how point labeling style and the quantity of points per image affects the point label propagation quality and provide general recommendations on maximizing point label efficiency.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# LatticeML: 高温グラフに基づく構造化材料の有効ヤング率予測のためのデータ駆動型アプリケーション

LatticeML: A data-driven application for predicting the effective Young Modulus of high temperature graph based architected materials ( http://arxiv.org/abs/2404.09470v2 )

ライセンス: Link先を確認
Akshansh Mishra, (参考訳) ユニークなトポロジと幾何学を持つ建築材料は、物理的および機械的特性を変更する可能性がある。 機械学習は、最適設計を特定し、性能を予測することによって、これらの材料の設計と最適化を加速することができる。 この研究は、データ駆動型アプリケーションであるLatticeMLを、高温グラフベースの構造化材料の有効ヤング率を予測するためのものである。 この研究は、Ti-6Al-4VとInconel 625の2つの高温合金を用いたグラフベースの格子構造について考察した。 有限要素シミュレーションは、2x2x2単位セル構成の有効ヤング率を計算するために用いられた。 機械学習フレームワークは、データ収集、前処理、回帰モデルの実装、最高のパフォーマンスモデルの導入を含む、YoungのModulusを予測するために開発された。 5つの教師付き学習アルゴリズムが評価され、XGBoost Regressorが最も精度が高い(MSE = 2.7993, MAE = 1.1521, R-squared = 0.9875)。 アプリケーションは、Streamlitフレームワークを使用してインタラクティブなWebインターフェースを作成し、ユーザーは材料や幾何学的パラメータを入力し、予測されたヤングのModulus値を取得することができる。

Architected materials with their unique topology and geometry offer the potential to modify physical and mechanical properties. Machine learning can accelerate the design and optimization of these materials by identifying optimal designs and forecasting performance. This work presents LatticeML, a data-driven application for predicting the effective Young's Modulus of high-temperature graph-based architected materials. The study considers eleven graph-based lattice structures with two high-temperature alloys, Ti-6Al-4V and Inconel 625. Finite element simulations were used to compute the effective Young's Modulus of the 2x2x2 unit cell configurations. A machine learning framework was developed to predict Young's Modulus, involving data collection, preprocessing, implementation of regression models, and deployment of the best-performing model. Five supervised learning algorithms were evaluated, with the XGBoost Regressor achieving the highest accuracy (MSE = 2.7993, MAE = 1.1521, R-squared = 0.9875). The application uses the Streamlit framework to create an interactive web interface, allowing users to input material and geometric parameters and obtain predicted Young's Modulus values.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16
# CREST: ゼロショット学習の強化のための証拠深層学習によるクロスモーダル共鳴

CREST: Cross-modal Resonance through Evidential Deep Learning for Enhanced Zero-Shot Learning ( http://arxiv.org/abs/2404.09640v2 )

ライセンス: Link先を確認
Haojian Huang, Xiaozhen Qiao, Zhuo Chen, Haodong Chen, Bingyu Li, Zhe Sun, Mulin Chen, Xuelong Li, (参考訳) ゼロショット学習(ZSL)は、既知のカテゴリから未知のカテゴリへのセマンティックな知識伝達を活用することで、新しいクラスの認識を可能にする。 この知識は、典型的には属性記述にカプセル化され、クラス固有の視覚的特徴を識別し、視覚的セマンティックなアライメントを促進し、ZSLのパフォーマンスを向上させる。 しかし、インスタンス間の分布不均衡や属性共起といった現実世界の課題は、画像の局所的なばらつきの識別を妨げることがしばしばあり、これは、きめ細かい領域固有の属性アノテーションの不足によって悪化する。 さらに、カテゴリー内の視覚的プレゼンテーションの多様性は属性カテゴリーの関連を歪ませることもできる。 そこで本研究では,双方向の双方向ZSLアプローチであるCRESTを提案する。 属性と視覚的ローカライゼーションの表現を抽出することから始まり、Evidential Deep Learning (EDL) を用いて、根底にあるてんかんの不確実性を測定することによって、強陰性に対するモデルのレジリエンスを高める。 CRESTには、視覚的カテゴリと属性的カテゴリのアライメントの両方に焦点を当てたデュアルラーニングパスが組み込まれており、潜在空間と可観測空間の堅牢な相関性を保証する。 さらに,不確実性のあるクロスモーダル融合手法を導入し,視覚属性推論を洗練させる。 大規模な実験では、複数のデータセットにまたがるモデルの有効性とユニークな説明可能性を示す。 私たちのコードとデータは、https://github.com/JethroJames/CREST.comで公開されています。

Zero-shot learning (ZSL) enables the recognition of novel classes by leveraging semantic knowledge transfer from known to unknown categories. This knowledge, typically encapsulated in attribute descriptions, aids in identifying class-specific visual features, thus facilitating visual-semantic alignment and improving ZSL performance. However, real-world challenges such as distribution imbalances and attribute co-occurrence among instances often hinder the discernment of local variances in images, a problem exacerbated by the scarcity of fine-grained, region-specific attribute annotations. Moreover, the variability in visual presentation within categories can also skew attribute-category associations. In response, we propose a bidirectional cross-modal ZSL approach CREST. It begins by extracting representations for attribute and visual localization and employs Evidential Deep Learning (EDL) to measure underlying epistemic uncertainty, thereby enhancing the model's resilience against hard negatives. CREST incorporates dual learning pathways, focusing on both visual-category and attribute-category alignments, to ensure robust correlation between latent and observable spaces. Moreover, we introduce an uncertainty-informed cross-modal fusion technique to refine visual-attribute inference. Extensive experiments demonstrate our model's effectiveness and unique explainability across multiple datasets. Our code and data are available at: https://github.com/JethroJames/CREST.
翻訳日:2024-04-17 11:43:48 公開日:2024-04-16